МОДИФИКАЦИИ АЛГОРИТМА PROXIMAL POLICY OPTIMIZATION ДЛЯ РЕШЕНИЯ ЗАДАЧ УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ
Аннотация
Дипломная работа состоит из введения, основной части, экспериментов, заключения и списка источников. Работа изложена на 45 листах печатного текста, содержит 14 рисунков, 13 источников.
Ключевые слова: позиционная стратегия, дифференциальная игра, обучение с подкреплением, proximal policy optimization, рекуррентные нейронные сети.
Целью дипломной работы является модификации алгоритма proximal policy optimization для нахождения решений задач управления с наследственной информацией.
Методы исследования: изучение теории, анализ текущих решений, сравнение, эксперимент.
В ходе работы была исследована возможность применения алгоритмов обучения с подкреплением для решения дифференциальных игр. Также была дана реализация модификации proximal policy optimization, которая улучшала качество алгоритма при решении дифференциальных игр, в сравнении с оригинальной версией алгоритма.
Ключевые слова: позиционная стратегия, дифференциальная игра, обучение с подкреплением, proximal policy optimization, рекуррентные нейронные сети.
Целью дипломной работы является модификации алгоритма proximal policy optimization для нахождения решений задач управления с наследственной информацией.
Методы исследования: изучение теории, анализ текущих решений, сравнение, эксперимент.
В ходе работы была исследована возможность применения алгоритмов обучения с подкреплением для решения дифференциальных игр. Также была дана реализация модификации proximal policy optimization, которая улучшала качество алгоритма при решении дифференциальных игр, в сравнении с оригинальной версией алгоритма.