Определение компактного и информативного набора параметров для классификации русскоязычных текстов
Аннотация
Пояснительная записка содержит 2 раздела, 86 страниц, 11 рисунков
и 22 таблицы.
Диссертация включает в себя: изучение литературы по данной теме, подбор материалов и программных инструментов для исследования, расчёт параметров, классификация русскоязычных текстов с применением дискриминантного анализа, определение наиболее информативного и компактного набора параметров для классификации русскоязычных текстов, интерпретацию полученных результатов.
Исследование ставит целью построение методики машинной классификации русскоязычных текстов. Представлены результаты оценки различных статистических параметров по степени их влияния на правильность распознания жанровой принадлежности текстов. В исследовании применены методы дискриминантного и факторного анализа. Построен набор параметров, отвечающий одновременно требованиям информативности и компактности. Работа выполнена на кафедре полиграфии и веб-дизайна ИРИТ-РтФ УрФУ.
Explanatory note contains 2 sections, 86 pages, 11 figures and 22 tables.
The thesis includes: the study of literature on this topic, selection of materials and software tools for research, calculation of parameters, classification of Russian-language texts using discriminant analysis, the definition of the most informative and compact set of parameters for the classification of Russian-language texts, the interpretation of the results.
The study aims to build a method of machine classification of Russian-language texts. The results of the evaluation of various statistical parameters on the degree of their influence on the accuracy of recognition of the genre of texts are presented. The study used methods of discriminant and factor analysis. A set of parameters that meets both the requirements of informativeness and compactness is constructed. The work was performed at the Department of printing and web design IRIT-RTF Urfu.
и 22 таблицы.
Диссертация включает в себя: изучение литературы по данной теме, подбор материалов и программных инструментов для исследования, расчёт параметров, классификация русскоязычных текстов с применением дискриминантного анализа, определение наиболее информативного и компактного набора параметров для классификации русскоязычных текстов, интерпретацию полученных результатов.
Исследование ставит целью построение методики машинной классификации русскоязычных текстов. Представлены результаты оценки различных статистических параметров по степени их влияния на правильность распознания жанровой принадлежности текстов. В исследовании применены методы дискриминантного и факторного анализа. Построен набор параметров, отвечающий одновременно требованиям информативности и компактности. Работа выполнена на кафедре полиграфии и веб-дизайна ИРИТ-РтФ УрФУ.
Explanatory note contains 2 sections, 86 pages, 11 figures and 22 tables.
The thesis includes: the study of literature on this topic, selection of materials and software tools for research, calculation of parameters, classification of Russian-language texts using discriminant analysis, the definition of the most informative and compact set of parameters for the classification of Russian-language texts, the interpretation of the results.
The study aims to build a method of machine classification of Russian-language texts. The results of the evaluation of various statistical parameters on the degree of their influence on the accuracy of recognition of the genre of texts are presented. The study used methods of discriminant and factor analysis. A set of parameters that meets both the requirements of informativeness and compactness is constructed. The work was performed at the Department of printing and web design IRIT-RTF Urfu.