Разработка семантической поисковой системы для туристических мест

Хаммуд Алхассан

Аннотация


РАЗРАБОТКА СЕМАНТИЧЕСКОЙ ПОИСКОВОЙ СИСТЕМЫ ДЛЯ ТУРИСТИЧЕСКИХ МЕСТ
Выпускная квалификационная работа содержит 77 стр., 6 табл., 14 рис., 17 формулы., 34 источников, 5 прил.
Цель данной работы заключается в разработке алгоритма поиска туристических точек, основанного только на семантике, представленной языковой моделью BERT. Дополнительно предлагается механизм сокращения пространства поиска путем суммирования текстового документа максимально до 5 предложений с использованием рейтинга TF-IDF.
Алгоритм поиска реализуется на основе эмбеддинга предложений с использованием предобученной модели BERT для русского языка. Пространство поиска строится на индексированных векторах с использованием библиотеки FAISS, используя евклидово расстояние в качестве меры сходства.
Представленный алгоритм достигает MAP-меру 70,57% и NDCG-меру 76,52% при времени выполнения 0,3 секунды на текстовом наборе данных из 4280 запросов. Алгоритм уменьшения объема базы данных укорачивает время выполнения до 0,25 секунды, при этом достигаются MAP-мера 69,6%, и NDCG-мера 75,69%.
Предлагаемая система позволяет осуществлять поиск туристических мест на основе предпочтений пользователя, описываемых текстовым запросом. Тем не менее, данный алгоритм может быть внедрен в любую базу данных, состоящую из текстовых документов.