Автоматический анализ текстов новостных публикаций
Аннотация
Цель выпускной квалификационной работы – создание модели для задачи классификации текстов финансовых новостей по тональности на русском языке.
Методология включает изучение существующих решений, обучение моделей на языке Python и сравнение результатов работы этих моделей.
Новизна работы обусловлена тем, что в открытом доступе нет моделей для классификации русскоязычных финансовых новостей. В ходе работы были получены 3 классификатора, решающие поставленную задачу – метод опорных векторов, случайный лес, нейронная сеть. Каждый из них был обучен, для них были подобраны лучшие гиперпараметры и проверен на валидационной выборке. SVM показал результат 0.55 f1-score, Random Forest – 0.51, нейронная сеть 0.54.
Также было выявлено, что модели, обученные на несбалансированных выборках игнорируют негативный класс. Из проверенных классификаторов, лучше всего для решения задачи подошла нейронная сеть и метод опорных векторов.
Методология включает изучение существующих решений, обучение моделей на языке Python и сравнение результатов работы этих моделей.
Новизна работы обусловлена тем, что в открытом доступе нет моделей для классификации русскоязычных финансовых новостей. В ходе работы были получены 3 классификатора, решающие поставленную задачу – метод опорных векторов, случайный лес, нейронная сеть. Каждый из них был обучен, для них были подобраны лучшие гиперпараметры и проверен на валидационной выборке. SVM показал результат 0.55 f1-score, Random Forest – 0.51, нейронная сеть 0.54.
Также было выявлено, что модели, обученные на несбалансированных выборках игнорируют негативный класс. Из проверенных классификаторов, лучше всего для решения задачи подошла нейронная сеть и метод опорных векторов.