Моделирование юмора с помощью методов машинного обучения
Аннотация
Работа представлена на публикацию на The 57th Annual Meeting of the Association for Computational Linguistics (ACL) will take place in Florence (Italy) at the 'Fortezza da Basso' from July 28th to August 2nd, 2019 под названием
"Large Dataset and Language Model Fun-Tuning for Humor Recognition" (http://www.acl2019.org/EN/program.xhtml). Поэтому полный текст не приложен.
В состав выпускной квалификационной работы входят:
39 с., 9 рисунков, 4 таблицы, 29 источников, 0 приложений.
Ключевые слова: распознавание юмора, нейронные сети, ULMFiT,
корпус данных.
Объектом исследования выпускной квалификационной работы яв
ляется применение методов машинного обучения для решения задачи распознавания юмора. Задача распознавания юмора в последнее время привлекает большое внимание из-за необходимости обрабатывать боль шие объемы текстов, созданных пользователями, и увеличения числа голосовых ассистентов.
Первой целью данного исследования было составление нового большого набора данных смешных и не смешных текстов, который впо следствии можно использовать для обучения и проверки различных мо делей машинного обучения, решающих задачу распознавания юмора на русском языке. При этом полученные не смешные части новой коллек ции должны быть лексически близки, то есть похожи по набору слов на юмористические тексты в коллекции, для того чтобы корпус являл ся “сложным” для простых моделей, которые не учитывают “юмористи ческих” особенностей. Для этого был собран набор шуток и забавных диалогов на русском языке из различных онлайн-ресурсов и тщательно дополнен несмешными текстами из онлайн-форумов с похожими лекси ческими свойствами. Набор данных содержит более 300 000 коротких текстов, что значительно больше, чем у любого предыдущего корпуса, связанного с юмором. Ручная аннотация около 2000 текстов подтверди ла надежность автоматического подхода для составления корпуса. Для оценки качества был реализован веб-сервис. Набор данных будет свобод но доступен для исследовательского сообщества (https://github.com/computational-humor/humor-recognition/tree/master/data).
Второй задачей являлось построение модели машинного обучения для решения задачи распознавания юмора, которая хорошо обобщается на различные типы текстов и шуток. Для этого в рамках исследования был впервые применен новый подход дообучения языковой модели для
задачи классификации текста (ULMFiT). Значение метрики F = 0,91 на тестовом наборе демонстрирует значительный выигрыш по сравнению с базовыми методами и подходами, опубликованными ранее.
"Large Dataset and Language Model Fun-Tuning for Humor Recognition" (http://www.acl2019.org/EN/program.xhtml). Поэтому полный текст не приложен.
В состав выпускной квалификационной работы входят:
39 с., 9 рисунков, 4 таблицы, 29 источников, 0 приложений.
Ключевые слова: распознавание юмора, нейронные сети, ULMFiT,
корпус данных.
Объектом исследования выпускной квалификационной работы яв
ляется применение методов машинного обучения для решения задачи распознавания юмора. Задача распознавания юмора в последнее время привлекает большое внимание из-за необходимости обрабатывать боль шие объемы текстов, созданных пользователями, и увеличения числа голосовых ассистентов.
Первой целью данного исследования было составление нового большого набора данных смешных и не смешных текстов, который впо следствии можно использовать для обучения и проверки различных мо делей машинного обучения, решающих задачу распознавания юмора на русском языке. При этом полученные не смешные части новой коллек ции должны быть лексически близки, то есть похожи по набору слов на юмористические тексты в коллекции, для того чтобы корпус являл ся “сложным” для простых моделей, которые не учитывают “юмористи ческих” особенностей. Для этого был собран набор шуток и забавных диалогов на русском языке из различных онлайн-ресурсов и тщательно дополнен несмешными текстами из онлайн-форумов с похожими лекси ческими свойствами. Набор данных содержит более 300 000 коротких текстов, что значительно больше, чем у любого предыдущего корпуса, связанного с юмором. Ручная аннотация около 2000 текстов подтверди ла надежность автоматического подхода для составления корпуса. Для оценки качества был реализован веб-сервис. Набор данных будет свобод но доступен для исследовательского сообщества (https://github.com/computational-humor/humor-recognition/tree/master/data).
Второй задачей являлось построение модели машинного обучения для решения задачи распознавания юмора, которая хорошо обобщается на различные типы текстов и шуток. Для этого в рамках исследования был впервые применен новый подход дообучения языковой модели для
задачи классификации текста (ULMFiT). Значение метрики F = 0,91 на тестовом наборе демонстрирует значительный выигрыш по сравнению с базовыми методами и подходами, опубликованными ранее.