Применение алгоритмов машинного обучения для классификации текстов на естественном языке

Носков Дмитрий Владимирович

Аннотация


Объектом исследования являются текстовые документы на естественном языке.
Цель данной работы – исследование существующих методов классификации текста при помощи алгоритмов машинного обучения, поиск наиболее качественных методов классификации для определенных задач.
В процессе работы были: исследованы существующие методы классификации текстов на естественном языке, проведен анализ готовых программных решений, используемых при задачах классификации документов.
В результате исследования были разработаны алгоритмы определения тональности текста и классификации новостных статей, проведен анализ и выбраны наилучшие методы классификации, подходящие для решения вышеуказанных задач, определен ряд параметров, при которых точность алгоритмов является максимальной. На основе разработанных алгоритмов были созданы web-сервисы, предоставляющие функционал определения тональности текста и классификации документов по категориям новостных статей