Видео суммаризация

Аверченко Марк Алексеевич

Аннотация


Аверченко Марк Алексеевич, «Видео суммаризация»: работа содержит: страниц 32, рисунков 6, таблиц 6, использованных источников 14.
Ключевые слова: компьютерное зрение, видео, суммаризация, нейронные сети, глубокое обучение
Целью работы является исследование задачи получения автоматической покадровой вероятности попадания кадра в короткое видео на основе наборов данных, собранных вручную.
В ходе работы была сформулирована задача суммаризации видео в терминах машинного обучения. Создано решение задачи суммаризации видео с использованием нейронных сетей Vit-gpt2-image-captioning, Whisper и GPT-3.5 без обучения модели на наборах данных и решение с механизмом внимания и различными линейными блоками для обучения модели на внутренних представлениях из больших моделей, применённым к наборам данных.
Были использованы следующие технологии:
− язык программирования Python;
− библиотека компьютерного зрения OpenCV;
− библиотека для работы с глубокими нейронными сетями PyTorch;
− библиотека для анализа данных и работы с табличными данными
Pandas;
− библиотека для обучения глубоких нейронных сетей PyTorch
Lighting;
− библиотека для работы с аудио файлами PyTorch audio;