Исследование моделей генерации аннотаций для художественных произведений

Драгомиров Даглар Сарматович

Аннотация


Данная работа посвящена решению важной задачи автоматической генерации аннотаций для художественных произведений с использованием современных моделей машинного обучения. Автоматизация процесса создания аннотаций позволяет читателям быстро ознакомиться с содержанием книги и принять решение о её прочтении. В работе исследуются и сравниваются различные модели генерации аннотаций, включая Bag-of-Words (BoW), TF-IDF, Latent Dirichlet Allocation (LDA), Recurrent Neural Networks (RNNs), BERT (Bidirectional Encoder Representations from Transformers), T5 и PEGASUS. Оценка качества генерируемых аннотаций проводится с использованием метрик BLEU Score, ROUGE Score, METEOR Score, F1 Score и CIDEr Score. Для экспериментов был использован датасет, состоящий из книг в формате .docx. Результаты исследования позволяют определить наиболее эффективные модели для автоматической генерации аннотаций и предлагают направления для их дальнейшего улучшения.