ПРИМЕНЕНИЕ МЕТОДА ОПОРНЫХ ВЕКТОРОВ ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВ

Александрин Виктор Дмитриевич

Аннотация


В данной работе рассматривается алгоритм решения следующей задачи. Есть набор текстов с некоторыми метками классов. Нужно основываясь на этих текстах классифицировать новые тексты. Решение можно разбить на три части. Сначала тексты преобразуются в вектора, используя подход Tf-Idf (Term frequency - Inversedocument frequency). Далее объекты из обучающей выборки используются для обучения SVM классификатора. На следующем этапе с помощью полученного классификатора восстанавливаются метки новых текстов. Метод был протестирован на новостных текстах из архива агенства Рейтер