Корпусная разметка как способ выявления морфологического и тематического своеобразия региональных текстов
Аннотация
Выпускная квалификационная работа выполнена на 124 страницах, содержит 53 источника литературы, а также 11 приложений, в том числе 13 рисунков и 5 таблиц.
Цель исследования – выявить морфологическое и тематическое своеобразие региональных текстов при помощи методов автоматической обработки естественного языка.
Объект исследования – тексты, собранные во время фольклорных экспедиций в Свердловской области.
Предмет исследования – выявление морфологического и тематического своеобразия текстов, собранных в Свердловской области.
В результате проведенного исследования была разработана классификация нелитературных текстоформ, встречающихся в региональных текстах, описан алгоритм морфологической разметки для каждой из этих групп. Также были выявлены и классифицированы по тематическим группам ключевые слова, являющиеся уникально частотными для текстов несказочной прозы Среднего Урала. Для основных ключевых слов при помощи векторной модели были выявлены контекстно близкие слова. Связи слов внутри тематических групп и связи между группами были прокомментированы в контексте раскрытия жизни на Урале и истории Урала в текстах несказочной прозы.
Цель исследования – выявить морфологическое и тематическое своеобразие региональных текстов при помощи методов автоматической обработки естественного языка.
Объект исследования – тексты, собранные во время фольклорных экспедиций в Свердловской области.
Предмет исследования – выявление морфологического и тематического своеобразия текстов, собранных в Свердловской области.
В результате проведенного исследования была разработана классификация нелитературных текстоформ, встречающихся в региональных текстах, описан алгоритм морфологической разметки для каждой из этих групп. Также были выявлены и классифицированы по тематическим группам ключевые слова, являющиеся уникально частотными для текстов несказочной прозы Среднего Урала. Для основных ключевых слов при помощи векторной модели были выявлены контекстно близкие слова. Связи слов внутри тематических групп и связи между группами были прокомментированы в контексте раскрытия жизни на Урале и истории Урала в текстах несказочной прозы.