Исследование и разработка методов информационной поддержки задачи обучения китайскому языку
Аннотация
В работе достигнута цель исследования – предложены методы для создания системы машинного обучения для понимания и рерайтинга текста на китайском языке.
В рамках работы были изучены существующие методы, а также программные средства и подходы, применяемые для построения интеллектуальных систем классификации, анализа, понимания и генерации текста и принятия решения.
На основании произведенного анализа был предложен гибридный метод построения ансамбля моделей машинного обучения. Также была описана возможная архитектура программного комплекса информационной системы, реализующий предложенный метод, а также прочих технических модулей, обеспечивающих работу системы в целом, а также возможность управления ею.
В перспективе данная система может быть использована в образовательных целях, научных изысканиях, популяризации текстов, изменении стиля и жанра текста, а также для коммерческих нужд в маркетинге и работе с контентом.
В данное решение также может быть интегрирована подсистема определения намерений, основанная на моделях машинного обучения, таких как RASA NLU. Интеграция такого решения позволит не только улучшить «понимание» смысла текста и качество производимого рерайтинга текста, но также позволит расширить сферу применений данной системы.
Например, её можно будет использовать для реализации систем человеко-машинного диалога в режиме реального времени и принятия решений. Такое решение в перспективе может быть использовано для построения интеллектуальных чат-ботов, экспертных систем поддержки принятия решений и многого другого. Однако следует также отметить, что для реализации последних потребуется также внедрение большего количества подсистем моделей классификации и поиска решения, основанных на работе с экспертными базами знаний, построенных для каких-либо специфичных предметных областей.
Также в рамках данной работы в дальнейшем необходимо произвести разметку большого объема датасетов китайских текстов. В дальнейшем работа будет продолжена в плане сбора и разметки данных, обучения моделей, корректировки параметров моделей на основании использования функции потерь и метрик, а также при выявлении прочих потенциальных проблем.
Abstract of the scientific report
The work achieved the goal of the research - methods were proposed for creating a machine learning system for understanding and rewriting text in Chinese.
As part of the work, were studied existing methods, as well as software tools and approaches used to build intelligent systems for classification, analysis, understanding and generation of text and decision making.
Based on the analysis, a hybrid method for constructing an ensemble of machine learning models was proposed. The possible architecture of the information system software complex that implements the proposed method, as well as other technical modules that ensure the operation of the system as a whole, as well as the ability to manage it, was also described.
In the future, this system can be used for educational purposes, scientific research, popularization of texts, changing the style and genre of the text, as well as for commercial needs in marketing and working with content.
The solution can also integrate an intent detection subsystem based on machine learning models such as RASA NLU. Integration of such a solution will not only improve the “understanding” of the meaning of the text and the quality of the text rewriting, but will also expand the scope of applications of this system.
For example, it can be used to implement human-machine dialogue systems in real time and decision making. In the future, such a solution can be used to build intelligent chat bots, expert decision support systems, and much more. However, it should also be noted that the implementation of the latter will also require the introduction of a larger number of subsystems of classification and solution search models based on working with expert knowledge bases built for any specific subject areas.
Also, as part of this work, in the future it is necessary to mark up a large volume of datasets of Chinese texts. In the future, work will continue in terms of collecting and labeling data, training models, adjusting model parameters based on the use of loss functions and metrics, as well as identifying other potential problems.
В рамках работы были изучены существующие методы, а также программные средства и подходы, применяемые для построения интеллектуальных систем классификации, анализа, понимания и генерации текста и принятия решения.
На основании произведенного анализа был предложен гибридный метод построения ансамбля моделей машинного обучения. Также была описана возможная архитектура программного комплекса информационной системы, реализующий предложенный метод, а также прочих технических модулей, обеспечивающих работу системы в целом, а также возможность управления ею.
В перспективе данная система может быть использована в образовательных целях, научных изысканиях, популяризации текстов, изменении стиля и жанра текста, а также для коммерческих нужд в маркетинге и работе с контентом.
В данное решение также может быть интегрирована подсистема определения намерений, основанная на моделях машинного обучения, таких как RASA NLU. Интеграция такого решения позволит не только улучшить «понимание» смысла текста и качество производимого рерайтинга текста, но также позволит расширить сферу применений данной системы.
Например, её можно будет использовать для реализации систем человеко-машинного диалога в режиме реального времени и принятия решений. Такое решение в перспективе может быть использовано для построения интеллектуальных чат-ботов, экспертных систем поддержки принятия решений и многого другого. Однако следует также отметить, что для реализации последних потребуется также внедрение большего количества подсистем моделей классификации и поиска решения, основанных на работе с экспертными базами знаний, построенных для каких-либо специфичных предметных областей.
Также в рамках данной работы в дальнейшем необходимо произвести разметку большого объема датасетов китайских текстов. В дальнейшем работа будет продолжена в плане сбора и разметки данных, обучения моделей, корректировки параметров моделей на основании использования функции потерь и метрик, а также при выявлении прочих потенциальных проблем.
Abstract of the scientific report
The work achieved the goal of the research - methods were proposed for creating a machine learning system for understanding and rewriting text in Chinese.
As part of the work, were studied existing methods, as well as software tools and approaches used to build intelligent systems for classification, analysis, understanding and generation of text and decision making.
Based on the analysis, a hybrid method for constructing an ensemble of machine learning models was proposed. The possible architecture of the information system software complex that implements the proposed method, as well as other technical modules that ensure the operation of the system as a whole, as well as the ability to manage it, was also described.
In the future, this system can be used for educational purposes, scientific research, popularization of texts, changing the style and genre of the text, as well as for commercial needs in marketing and working with content.
The solution can also integrate an intent detection subsystem based on machine learning models such as RASA NLU. Integration of such a solution will not only improve the “understanding” of the meaning of the text and the quality of the text rewriting, but will also expand the scope of applications of this system.
For example, it can be used to implement human-machine dialogue systems in real time and decision making. In the future, such a solution can be used to build intelligent chat bots, expert decision support systems, and much more. However, it should also be noted that the implementation of the latter will also require the introduction of a larger number of subsystems of classification and solution search models based on working with expert knowledge bases built for any specific subject areas.
Also, as part of this work, in the future it is necessary to mark up a large volume of datasets of Chinese texts. In the future, work will continue in terms of collecting and labeling data, training models, adjusting model parameters based on the use of loss functions and metrics, as well as identifying other potential problems.