МОДИФИКАЦИИ АЛГОРИТМА PROXIMAL POLICY OPTIMIZATION ДЛЯ РЕШЕНИЯ ЗАДАЧ УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ

Виктор Андреевич Сергеев

МОДИФИКАЦИИ АЛГОРИТМА PROXIMAL POLICY OPTIMIZATION ДЛЯ РЕШЕНИЯ ЗАДАЧ УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ

Сергеев Виктор Андреевич

Аннотация

Дипломная работа состоит из введения, основной части, экспериментов, заключения и списка источников. Работа изложена на 45 листах печатного текста, содержит 14 рисунков, 13 источников.

Ключевые слова: позиционная стратегия, дифференциальная игра, обучение с подкреплением, proximal policy optimization, рекуррентные нейронные сети.

Целью дипломной работы является модификации алгоритма proximal policy optimization для нахождения решений задач управления с наследственной информацией.

Методы исследования: изучение теории, анализ текущих решений, сравнение, эксперимент.

В ходе работы была исследована возможность применения алгоритмов обучения с подкреплением для решения дифференциальных игр. Также была дана реализация модификации proximal policy optimization, которая улучшала качество алгоритма при решении дифференциальных игр, в сравнении с оригинальной версией алгоритма.

02.04.01 Математика и компьютерные науки

МОДИФИКАЦИИ АЛГОРИТМА PROXIMAL POLICY OPTIMIZATION ДЛЯ РЕШЕНИЯ ЗАДАЧ УПРАВЛЕНИЯ С НАСЛЕДСТВЕННОЙ ИНФОРМАЦИЕЙ

Аннотация