Дистилляция больших языковых моделей для получения векторных представлений текста
Аннотация
Кириенко Владислав Евгеньевич «Дистилляция больших языковых моделей для получения векторных представлений текста», выпускная квалификационная работа бакалавра: 45 страниц, 42 рисунка, 5 таблиц, 40 использованных источников.
Ключевые слова: ДИСТИЛЛЯЦИЯ, ВЕКТОРНОЕ ПРЕДСТАВЛЕНИЕ, ЭМБЕДДИНГ, ТРАНСФОРМЕР, НЕЙРОННЫЕ СЕТИ, ГЛУБОКОЕ ОБУЧЕНИЕ.
Целью данной работы является исследование методов получения нейросетевых моделей для векторных представлений текста c меньшим количеством параметров, которые основаны на технике, называемой дистилляцией знаний. В работе рассмотрены существующие подходы к построению векторных представлений текстов и дистилляции знаний. Для исследуемых методов дистилляции проведены эксперименты, в результате которых из исходной модели были получены новые, которые имеют меньшее количество параметров, работают быстрее на CPU и GPU и показывают близкое к исходной модели качество на ряде задач для русского языка.
Ключевые слова: ДИСТИЛЛЯЦИЯ, ВЕКТОРНОЕ ПРЕДСТАВЛЕНИЕ, ЭМБЕДДИНГ, ТРАНСФОРМЕР, НЕЙРОННЫЕ СЕТИ, ГЛУБОКОЕ ОБУЧЕНИЕ.
Целью данной работы является исследование методов получения нейросетевых моделей для векторных представлений текста c меньшим количеством параметров, которые основаны на технике, называемой дистилляцией знаний. В работе рассмотрены существующие подходы к построению векторных представлений текстов и дистилляции знаний. Для исследуемых методов дистилляции проведены эксперименты, в результате которых из исходной модели были получены новые, которые имеют меньшее количество параметров, работают быстрее на CPU и GPU и показывают близкое к исходной модели качество на ряде задач для русского языка.