Разработка голосового ассистента с использованием искусственного интеллекта для лиц с нарушениями речи

Бредихин Борис Андреевич

Аннотация


Магистерская работа посвящена разработке голосового ассистента с использованием искусственного интеллекта для лиц с нарушениями речи.
Цель работы – исследование и выбор оптимальной модели распознавания дизартричной речи.
Предметом исследования является оптимизация моделей машинного обучения для распознавания речи на индивидуальных данных пользователя.
Объект исследования – система автоматического распознавания речи.
При написании данной работы использовались следующие методы: анализ данных, математическое моделирование, машинное обучение, сбор данных.
В первой главе проведен обзор литературы и анализ подходов к обработке аномальной речи, выделены основные подходы к распознаванию дизартричной речи: скрытые марковские модели, рекуррентные и сверточно-рекуррентные нейронные сети, нейронные сети на основе архитектуры трансформер; определено основное направление исследований – создание индивидуальных моделей распознавания речи, выбраны архитектуры моделей для дальнейшего исследования и внедрения в информационную систему.
Во второй главе проанализированы инструменты достижения цели работы: проанализированы алгоритмы, необходимые для сознания системы проверки гипотез и разработки архитектуры индивидуальных моделей. Также проанализированы платформы и средства разработки, которые могут быть использованы для реализации системы проверки гипотез и моделей распознавания.
Третья глава посвящена реализации системы проверки гипотез и исследованию архитектур моделей распознавания речи. Приведено описание набора данных, используемого для обучения и оценки качества моделей, а также процесса предобработки данных и метрик качества; проведено описание и оценка качества следующих методов распознавания речи: скрытые марковские модели, рекуррентные и сверточно-рекуррентные нейронные сети; исследовано влияние аугментации данных и гиперпараметров на качество работы моделей. Описан процесс проектирования программного обеспечения для распознавания дизартричной речи: проанализированы требования, на основе которых спроектированы схема базы данных, архитектура программного обеспечения, API, схема базы данных и интерфейс пользователя. Описана реализация компонентов системы. Также в этой главе проведена оценка качества системы.
Результатом работы являются размеченный набор данных с записями дизартричной речи трех человек, модель распознавания дизартричной речи с точностью распознавания до 85 % и информационная система для работы с индивидуальными моделями.