Алгоритмы обучения с подкреплением в задачах с непрерывным временем.
Аннотация
Дипломная работа на тему «Алгоритмы обучения с подкреплением в задачах с непрерывным временем» написана 26 страницах компьютерного текста, содержит 12 рисунков. Список использованных источников включает 9 наименований.
Работа проводилась студентом Миргородским Н. В. под руководством Плаксина А. Р. При проведении работ был использован суперкомпьютер «Уран» ИММ УрО РАН.
Цель работы – исследование подходов к реализации метода поиска оптимального шага дискретизации непрерывных сред на примере алгоритма обучения с подкрепление Soft Actor Critic и их сравнение на примере задач управления.
В работе использовались следующие методы исследования: аналитический, экспериментальный.
Вывод: некоторые подходы показали своё результативность на малых шагах дискретизации, что говорит об перспективности их дальнейшего улучшения.
Новизна заключается в оценке применимости рассмотренных методов для поиска оптимального шага дискретизации непрерывных сред.
Ключевые слова: обучение с подкреплением, Soft Actor Critic, дискретизация, глубокие нейронные сети, эффективность, задачи управления.
Работа проводилась студентом Миргородским Н. В. под руководством Плаксина А. Р. При проведении работ был использован суперкомпьютер «Уран» ИММ УрО РАН.
Цель работы – исследование подходов к реализации метода поиска оптимального шага дискретизации непрерывных сред на примере алгоритма обучения с подкрепление Soft Actor Critic и их сравнение на примере задач управления.
В работе использовались следующие методы исследования: аналитический, экспериментальный.
Вывод: некоторые подходы показали своё результативность на малых шагах дискретизации, что говорит об перспективности их дальнейшего улучшения.
Новизна заключается в оценке применимости рассмотренных методов для поиска оптимального шага дискретизации непрерывных сред.
Ключевые слова: обучение с подкреплением, Soft Actor Critic, дискретизация, глубокие нейронные сети, эффективность, задачи управления.