Возможность использования средств автоматической обработки языка для анализа тональности текста (на материале французской политический прессы)
Аннотация
Работа посвящена исследованию средств автоматической обработки языка, направленных на проведение семантического анализа письменной речи, в частности рассматривается возможность осуществления интеллектуального анализа текста с помощью терминологических баз. Материал исследования составили 60 статей французских периодических изданий Le Figaro и La Libération. Первые 30 статей были использованы для построения лексико-семантических полей, на текстах оставшихся 30 проводился автоматический анализ посредством программного модуля NLTK.
В первой главе раскрывается значение понятия компьютерная лингвистика, рассматриваются основные подходы к семантическому анализу текста и методы интеллектуального анализа, а также возможности использования словарей для тренировки алгоритмов. Дается определение лексико-семантическому полю, описывается его структура. Рассматривается понятие «сonflit», а также «дискурс» и «политический дискурс».
Практическая глава разделена на две части, в первой из которых составляются лексико-семантические поля «Conflit». В ходе работы построены два лексико-семантических поля и произведено поэтапное описание входящих в них элементов на основании контекста и словарных статей французского толкового словаря Larousse, доступного в веб-формате. Вторая часть посвящена составлению и описанию программного кода, который включает этапы подготовки текста к автоматическому анализу и интеллектуальный анализ текста. Проводилась проверка созданной словарной базы на ином языковом материале тех же периодических изданий за другой промежуток времени. В ходе работы над второй частью практической главы, были составлены программные коды, которые призваны ускорить процесс анализа текстов с помощью терминологической базы, выявлены сильные и слабые стороны программы, определены задачи для дальнейшего исследования, намечены возможные пути решения возникших проблем.
Результаты исследования могут быть использованы в сфере веб-безопасности при составлении алгоритмов машинной обработки текстовых массивов, с целью выявить в них скрытую угрозу, а также для поиска нужной информации при работе с большими объемами данных, где основным критерием являются семантические отношения между составляющими.
В приложении приводятся два лексико-семантических поля с центральным понятием «Conflit», терминологическая база, составленная на основе этих полей и программные коды автоматической обработки текста.
В первой главе раскрывается значение понятия компьютерная лингвистика, рассматриваются основные подходы к семантическому анализу текста и методы интеллектуального анализа, а также возможности использования словарей для тренировки алгоритмов. Дается определение лексико-семантическому полю, описывается его структура. Рассматривается понятие «сonflit», а также «дискурс» и «политический дискурс».
Практическая глава разделена на две части, в первой из которых составляются лексико-семантические поля «Conflit». В ходе работы построены два лексико-семантических поля и произведено поэтапное описание входящих в них элементов на основании контекста и словарных статей французского толкового словаря Larousse, доступного в веб-формате. Вторая часть посвящена составлению и описанию программного кода, который включает этапы подготовки текста к автоматическому анализу и интеллектуальный анализ текста. Проводилась проверка созданной словарной базы на ином языковом материале тех же периодических изданий за другой промежуток времени. В ходе работы над второй частью практической главы, были составлены программные коды, которые призваны ускорить процесс анализа текстов с помощью терминологической базы, выявлены сильные и слабые стороны программы, определены задачи для дальнейшего исследования, намечены возможные пути решения возникших проблем.
Результаты исследования могут быть использованы в сфере веб-безопасности при составлении алгоритмов машинной обработки текстовых массивов, с целью выявить в них скрытую угрозу, а также для поиска нужной информации при работе с большими объемами данных, где основным критерием являются семантические отношения между составляющими.
В приложении приводятся два лексико-семантических поля с центральным понятием «Conflit», терминологическая база, составленная на основе этих полей и программные коды автоматической обработки текста.