Разработка автоматизированной системы комплексного структурно-семантического и тематического анализа текста на естественном языке

Петрова Алена Игоревна

Аннотация


Актуальность темы обусловлена потребностью предприятий во внедрении, в качестве основы всех предоставляемых продуктов и услуг, автоматизированной системы комплексного структурно - семантического и тематического анализа естественно языковых текстов (русскоязычного лингвистического анализатора).
Целью работы является разработка автоматизированной системы комплексного структурно - семантического и тематического анализа естественно языковых текстов, а именно эффективного русскоязычного лингвистического анализатора, способного безошибочно определять части речи слов и их морфологические характеристики, так как на момент создания компании Privacy Safeguard Co таковые отсутствовали на рынке
Задачи данной магистерской диссертации:
 изучить теоретические основы русскоязычных частей речи, а также их морфологические характеристик;
 выявить русскоязычные анализаторы, представленные на рынке;
 проанализировать их достоинства и недостатки;
 определить средства разработки, способные обойти проблемы, присутствующие в ранее разработанных лингвистических анализаторах;
 построить полную модель предприятия OOO Privacy Safeguard Co, тем самым проанализировать ее деятельность;
 описать бизнес – процесс рассматриваемой мной компании после внедрения анализатора;
 с помощью выбранной методологии описать план разработки проекта;
 исходя из выявленных средств разработки создать новый эффективный лингвистический анализатор;
 провести экономический анализ внедряемого проекта, а также написать его экономическое обоснование.
Объектом исследования данной магистерской диссертации является инструментарий анализа естественно языковых текстов. Предметом исследования является - автоматизация процесса анализа естественно языковых текстов OOO Privacy Safeguard Co.
В первой главе магистерской диссертации подробно рассмотрены все существующие части речи русского языка, а также их морфологические характеристики. Выявлены и проанализированы популярные инструментарии для определения частей речи слов русского языка. Также в первой главе данной работы выявлены и подробно описаны средства необходимые для разработки нового эффективного лингвистического анализатора.
Во второй главе данной магистерской диссертации подробно рассмотрены и описаны все инструменты, используемые в реализации лингвистического анализатора. Кроме того, представлена блок – схема, на которой представлен алгоритм работы лингвистического анализатора.
В третьей главе магистерской диссертации проведен тщательный анализ ООО Privacy Safeguard Co, а также построена полная модель данного предприятия. Создана модель TO-BE, наглядно демонстрирующая внедрение новой системы в рассматриваемую мной организацию. Также во второй главе магистерской диссертации разработан план внедрения разрабатываемого проекта, исходя из выбранной методологии, а также описана и проанализирована экономическая сторона разрабатываемой системы.
Результаты работы – практическим результатом работы стала разработанная автоматизированная система комплексного структурно - семантического и тематического анализа естественно языковых текстов (русскоязычный лингвистического анализатора).