Классификация текстов с помощью алгоритмов машинного обучения

Злобина Александра Владимировна

Аннотация


Целью работы является описание, реализация и применение одного из алгоритмов классификации для обработки некоторой выборки неструктурированных данных на основе инструментов языка R.
Для решения поставленных задач был:
1. Выполнен обзор технологий анализа Big Data и выбран метод анализа.
2. Осуществлен выбор среды для реализации алгоритма, а также описаны выбранные данные для анализа данных.
3. Рассмотрены необходимые библиотеки языка R, и реализована предварительная обработка данных.
4. Применён алгоритм для реализации анализа данных.
Для достижения данной цели было реализовано: удаление шумовой информации, создание терм-документной матрицы, обучение системы и проведение испытания, применение алгоритма k-ближайших соседей, выполнение проверки на точность.
При завершении исследования была выполнена проверка на точность отработанного алгоритма, полученный результат составил 97%, следовательно, можно сделать вывод, что алгоритм справился с поставленной задачей достаточно хорошо.