Исследование методов обработки естественного языка для классификации медицинских текстов разной длины

Маяцкая Екатерина Александровна

Аннотация


Магистерская диссертация 80 с., 37 рис.,6 табл., 46 источн.
МАШИННОЕ ОБУЧЕНИЕ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ, РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ.
Объект исследования – классификация медицинских текстовых последовательностей разной длины.
Предметом исследования являются методы по созданию векторного представления текстовых данных, а также алгоритмы способные обрабатывать данные без ограничения на длину последовательности.
Цель выпускной квалификационной работы магистра – исследование методов обработки естественного языка для классификации медицинских текстов разной длины.
Методы исследования: анализ, математическое моделирование, синтез, сравнение, эксперимент.
Результатом работы является: обзор существующих методов, позволяющих обрабатывать длинные тексты; собранный набор данных, включающий более 18 000 медицинских текстов; разработанный подход, позволяющий обрабатывать длинные тексты и ускоряющий модель трансформера при кодировке текстов разной длины. По итогам анализа разработанный подход достиг наилучших результатов классификации и времени инференса по сравнению с рассматриваемыми в работе методами.