АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЮМОРИСТИЧЕСКИХ ТЕКСТОВ НА АНГЛИЙСКОМ ЯЗЫКЕ С ПОМОЩЬЮ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
Аннотация
В работе рассматривается классификация юмористических текстов на английском языке с помощью нескольких методов машинного обучения. Сначала применяются классические методы обучения, такие как логистическая регрессия и метод опорных векторов. Признаковым описанием текста для классических методов являются результаты измерения статистической меры TF-IDF над n-граммами слов, где n =1,4. Далее применяется подход "Универсальная языковая модель с тонкой настройкой параметров для классификации текстов"(сокр. ULMFiT). Этот подход является лучшим для классификации текстов на данный момент, а также в известной автору литературе ULMFiT ещё не был применен для классификации юмористических текстов. Также в работе проводится формирование трех наборов данных для осуществления эффективного обучения моделей