Векторизация документов и анализ их идентичности с помощью нейронной сети

Рогозин Антон Дмитриевич

Аннотация


В последнее время появляется всё больше систем «вопрос-ответ», в которых обычные пользователи на разных форумах отвечают на вопросы таких же обычных пользователей. У спрашивающего возникает вопрос времени ожидания ответа на свой вопрос. Система проектирования, которую будет раскрыта в диссертации, позволила бы спрашивающему найти ответы в похожих вопросах других пользователей. Данная разработка помогла бы и тем пользователям, которые не написали свой вопрос, а ищут похожие вопросы на предмет поиска ответов.
Целью магистерской диссертации является проектирование удобной и быстрой системы для поиска похожих текстов. Эта система позволит находить документы схожих тематик быстро и прозрачно для конечного пользователя и его интересов.
Для достижения вышеуказанных целей необходимо выполнить следующую работу: обработка текста, изучение теоретической части по векторизации, описание применяемых алгоритмов обучения, проектирование алгоритма для определения оптимальных параметров модели, разработка модели, применение модели на практике, обсуждение результатов работы спроектированной модели.
Объектом исследования являются модели и методы похожести документов.
Предметом исследования - возможность создания модели, которая будет проверять похожесть документов на основе нейронной сети doc2vec.
Популяризация векторного представления слов для представления огромного корпуса слов в вектор компактной длины, что позволит осуществлять быстрый поиск по ним – это и есть научная значимость.
При внедрении этой системы компании могут сделать клиентов более лояльными из-за более быстрого и точного поиска ответа на их вопрос – это практическая значимость.
Кроме этого не стоит забывать об экономической эффективности – за счёт ускорения получения времени на ответ можно сократить ресурсы компании примерно в 2 раза.