Возможность использования средств автоматической обработки языка для анализа тональности текста (на материале французской политический прессы)

Горячун Дарья Сергеевна

Аннотация


Работа посвящена исследованию средств автоматической обработки языка, направленных на проведение семантического анализа письменной речи, в частности рассматривается возможность осуществления интеллектуального анализа текста с помощью терминологических баз. Материал исследования составили 60 статей французских периодических изданий Le Figaro и La Libération. Первые 30 статей были использованы для построения лексико-семантических полей, на текстах оставшихся 30 проводился автоматический анализ посредством программного модуля NLTK.
В первой главе раскрывается значение понятия компьютерная лингвистика, рассматриваются основные подходы к семантическому анализу текста и методы интеллектуального анализа, а также возможности использования словарей для тренировки алгоритмов. Дается определение лексико-семантическому полю, описывается его структура. Рассматривается понятие «сonflit», а также «дискурс» и «политический дискурс».
Практическая глава разделена на две части, в первой из которых составляются лексико-семантические поля «Conflit». В ходе работы построены два лексико-семантических поля и произведено поэтапное описание входящих в них элементов на основании контекста и словарных статей французского толкового словаря Larousse, доступного в веб-формате. Вторая часть посвящена составлению и описанию программного кода, который включает этапы подготовки текста к автоматическому анализу и интеллектуальный анализ текста. Проводилась проверка созданной словарной базы на ином языковом материале тех же периодических изданий за другой промежуток времени. В ходе работы над второй частью практической главы, были составлены программные коды, которые призваны ускорить процесс анализа текстов с помощью терминологической базы, выявлены сильные и слабые стороны программы, определены задачи для дальнейшего исследования, намечены возможные пути решения возникших проблем.
Результаты исследования могут быть использованы в сфере веб-безопасности при составлении алгоритмов машинной обработки текстовых массивов, с целью выявить в них скрытую угрозу, а также для поиска нужной информации при работе с большими объемами данных, где основным критерием являются семантические отношения между составляющими.
В приложении приводятся два лексико-семантических поля с центральным понятием «Conflit», терминологическая база, составленная на основе этих полей и программные коды автоматической обработки текста.