Голосовые помощники для людей с нарушениями речи с помощью машинного обучения

Антор Махмудул Хасан

Аннотация


Аннотация— Несовершенная система распознавания речи может значительно смягчить повседневные проблемы, с которыми сталкиваются люди с нарушениями речи, в основном из-за барьеров в общении. В этом исследовании предлагается модель под названием Сеть с двунаправленной временной сверткой (CTBNet) для преобразования речи с нарушением гиперкинетической дисартрии (HD) в текст. Модель использует слои одномерной свертки (Conv1D), управляемые рекуррентные блоки (GRU) и двунаправленные управляемые рекуррентные блоки (BiGRU) для кодирования входных аудиофункций. Это позволяет ей эффективно захватывать как краткосрочную, так и долгосрочную пространственно-временную информацию. Уникальной особенностью этой модели является декодер коннекционистской временной классификации— внимание (CTC-attention), разработанный для генерации выходных текстов. Для противодействия переобучению и управления дисбалансами используются функции аугментации данных и разделения, а также Мел-кепстральные коэффициенты (MFCC) для решения проблемы исчезающего градиента. Для обучения и тестирования модели использовался набор данных из 2000 записей речи HD (общей продолжительностью 2 часа и 33 минуты). Предложенная модель показала точность обучения 96.4%, точность тестирования 87.65% и ошибку распознавания символов (CER) 12.35%. Современные модели, такие как CBN и TDNN-F LF-MMI, показали CER 25% и 32% соответственно. В сравнении с ними предложенная модель демонстрирует превосходную производительность. Кроме того, в этом исследовании модель TensorFlow была реализована на сервере Flask, что указывает на ее потенциал для использования в веб-приложениях.
Ключевые слова— гиперкинетическая дисартрия, система голосового помощника, кодер-декодер, глубокое обучение, механизм внимания.
1. А. М. Хасан, К. Р. Дмитриевич, М. А. Валерьевич и др., «Нарушения голоса при гиперкинетической дизартрии: нейросетевое решение для перевода текста». Межд. Дж. Речевые технологии, том. 27, стр. 255–265, 2024. https://doi.org/10.1007/s10772-024-10098-5
2. Б. А. Бредихин, А. М. Хасан, Н. А. Хлебников и др., «Распознавание речи при дизартрии по фонемам с использованием скрытых марковских моделей». Моделирование, оптимизация и информационные технологии», том. 12, нет. 1, стр. 1–9, 2024. https://doi.org/10.26102/2310-6018/2024.44.1.002

Abstract— A defective speech recognition system can significantly mitigate the daily challenges faced by individuals with speech disorders, primarily due to communication barriers. This research proposes a model named Convolutional Temporal Bidirectional Network (CTBNet) to convert hyperkinetic dysarthria (HD) disorder speech into text. The model utilizes one-dimensional convolution (Conv1D) layers, gated recurrent units (GRU), and bidirectional gated recurrent units (BiGRU) layers to encode input audio features. This allows it to capture both short-term and long-term spatial temporal information effectively. A unique feature of this model is its connectionist temporal classification-attention (CTC-attention) decoder, designed to generate output texts. To counteract overfitting and deal with imbalances, data augmentation and splitting functions are utilized, along with Mel-Cepstral Coefficients (MFCC) to handle the vanishing gradient problem. A dataset of 2000 HD speech recordings (totaling 2 hours and 33 minutes) was used to train and test the model. The proposed model achieved a training accuracy of 96.4%, a testing accuracy of 87.65%, and a character error rate (CER) of 12.35%. State-of-the-art models such as CBNs and TDNN-F LF-MMI have recorded CERs of 25% and 32%, respectively. In contrast, the proposed model demonstrates superior performance. Furthermore, this research has implemented the TensorFlow model on a flask server, indicating its potential for use in web applications.

Keywords— hyperkinetic dysarthria, voice assistant system, encoder-decoder, deep learning, attention mechanism.

1. A. M. Hashan, C. R. Dmitrievich, M. A. Valerievich et al., “Hyperkinetic Dysarthria voice abnormalities: a neural network solution for text translation”. Int. J. Speech Technology, Vol. 27, p. 255–265, 2024. https://doi.org/10.1007/s10772-024-10098-5
2. B. A. Bredikhin, A. M. Hashan, N. A. Khlebnikov et al., “Dysarthria speech recognition by phonemes using hidden Markov models”. Modeling, Optimization and Information Technologies”, vol. 12, no. 1, p. 1–9, 2024. https://doi.org/10.26102/2310-6018/2024.44.1.002