Кластеризация русскоязычных текстов с применением методов математической статистики
Аннотация
ВКР посвящена изучению литературы по теме кластеризации русскоязычных текстов с применением методов математической статистики, подбору материалов и программных инструментов для исследования, исследованию текстов с применением статистики хи-квадрат и интерпретации полученных результатов.
Проблема обнаружения скрытых структур текста связана с перспективной методикой установления авторства и оценкой юзабилити. В работе описан Корпус текстов русского языка, созданный для исследований текстов методами математической статистики. Описывается исследование, проведённое на базе Корпуса с применением статистики хи-квадрат. Кластеризация текстов, обнаруженная в результате исследования, может служить основанием для их атрибуции.
Проблема обнаружения скрытых структур текста связана с перспективной методикой установления авторства и оценкой юзабилити. В работе описан Корпус текстов русского языка, созданный для исследований текстов методами математической статистики. Описывается исследование, проведённое на базе Корпуса с применением статистики хи-квадрат. Кластеризация текстов, обнаруженная в результате исследования, может служить основанием для их атрибуции.