Применение нейросетей в задаче разделения голосов, звучащих на разных языках

Волков Антон Сергеевич

Аннотация


Выпускная квалификационная работа на тему «ПРИМЕНЕНИЕ НЕЙРОСЕТЕЙ В ЗАДАЧЕ РАЗДЕЛЕНИЯ ГОЛОСОВ, ЗВУЧАЩИХ НА РАЗНЫХ ЯЗЫКАХ»

Содержит 47 листов формата А4, включающие 21 рисунок, 3 таблицы, 21 литературный источник и 4 приложения.

Ключевые слова: РАЗДЕЛЕНИЕ МОНОФОНИЧЕСКОЙ РЕЧИ, MOSSFORMER, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, ПРОГРАМНЫЙ КОД ТЕСТИРОВАНИЯ, ОБУЧЕНИЕ НЕЙРОННОЙ СЕТИ, НЕЖЕЛАТЕЛЬНЫЕ ЗВУКОВЫЕ ЭФФЕКТЫ.

Целью работы является исследование применимости и эффективности нейронной сети MossFormer2 в задаче разделения монофонической речи на мультиязычных данных.

Выпускная квалификационная работа состоит из 3 глав. В первой главе содержится литературный обзор, описание форматов хранения аудиоданных, метрик оценки качества разделения монофонической речи, больших мультиязычных наборов данных, существующих нейронных сетей в задаче разделения монофонической речи и заявлена постановка задачи. Вторая глава содержит подробное описание разработанной программы тестирования нейронных сетей в задаче разделения монофонической речи и результаты тестирования. В третьей главе исследована обучаемость модели MossFormer первой версии на языке, отличающимся от английского, а также влияние нежелательных звуковых эффектов на качество разделения монофонической речи модели MossFormer2.