Исследование гарантированного результата при решении дифференциальных игр алгоритмами обучения с подкреплением.
Аннотация
В данной работе исследуется численное нахождение стратегии игрока в дифференциальной игре, где оптимальная стратегия лежит в пространстве разрывных функций, методом кросс-энтропии. Предлагаются алгоритмы для поочередного обучения двух агентов на основе сэмплирования из буфера и обучения фиксированного набора агентов. Результаты численных экспериментов сравниваются с теорией.
In this paper, we study the numerical approximation of a agent’s policy in a differential game, in which it is known that the optimal strategy is from the space of discontinuous functions. Algorithms for alternate training of two agents based on buffer sampling and for training a fixed set of agents are proposed. The results of numerical experiments are compared with theory.
In this paper, we study the numerical approximation of a agent’s policy in a differential game, in which it is known that the optimal strategy is from the space of discontinuous functions. Algorithms for alternate training of two agents based on buffer sampling and for training a fixed set of agents are proposed. The results of numerical experiments are compared with theory.