Дообучение больших языковых моделей для решения специализированных задач

Молчанова Татьяна Александровна

Аннотация


Выпускная квалификационная работа магистра 79 с., 13 рис., 21 табл., 48 источников.
ЯЗЫКОВОЕ МОДЕЛИРОВАНИЕ, БОЛЬШИЕ ЯЗЫКОВЫЕ МОДЕЛИ, ТРАНСФОРМЕРЫ, ДООБУЧЕНИЕ МОДЕЛЕЙ, КВАНТИЗАЦИЯ МОДЕЛЕЙ, МАШИННЫЙ ПЕРЕВОД, МУЛЬТИЯЗЫЧНЫЙ МАШИННЫЙ ПЕРЕВОД
Цель работы: сравнение методов дообучения больших языковых моделей для решения специализированных задач. Специализированная задача: мультиязычный машинный перевод в сфере информационной безопасности.
Объект исследования: большие языковые модели.
Методы исследования: разведочный анализ данных, подтверждающий анализ данных, метод квантизации моделей QLORA, методы дообучения zero-shot, few-shot, и PEFT, метод оценивания BLEU.
Ограничения: одно устройство с одной устройство с одной видеокартой от 12 до 24 ГБ. В связи с этим не рассматривался метод дообучения full fine-tune.
Результаты работы: проведено сравнение методов zero-shot, few-shot и PEFT применительно к дообучению больших языковых моделей Mistral и Llama 2 для решения задачи мультиязычного машинного перевода в сфере информационной безопасности.
Выпускная квалификационная работа выполнена в текстовом редакторе Microsoft Word и представлена в твердой копии.