Алгоритмы обучения с подкреплением в задачах с непрерывным временем.

Миргородский Николай Владимирович

Аннотация


Дипломная работа на тему «Алгоритмы обучения с подкреплением в задачах с непрерывным временем» написана 26 страницах компьютерного текста, содержит 12 рисунков. Список использованных источников включает 9 наименований.
Работа проводилась студентом Миргородским Н. В. под руководством Плаксина А. Р. При проведении работ был использован суперкомпьютер «Уран» ИММ УрО РАН.
Цель работы – исследование подходов к реализации метода поиска оптимального шага дискретизации непрерывных сред на примере алгоритма обучения с подкрепление Soft Actor Critic и их сравнение на примере задач управления.
В работе использовались следующие методы исследования: аналитический, экспериментальный.
Вывод: некоторые подходы показали своё результативность на малых шагах дискретизации, что говорит об перспективности их дальнейшего улучшения.
Новизна заключается в оценке применимости рассмотренных методов для поиска оптимального шага дискретизации непрерывных сред.
Ключевые слова: обучение с подкреплением, Soft Actor Critic, дискретизация, глубокие нейронные сети, эффективность, задачи управления.