Кооперация в играх при использовании обучения с подкреплением
Аннотация
Бороздин К.А., КООПЕРАЦИЯ В ИГРАХ ПРИ ИСПОЛЬЗОВАНИИ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ, квалификационная работа: стр. 57.
Ключевые слова: ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ, Q-ОБУЧЕНИЕ, НЕЙРОННАЯ СЕТЬ, ТЕОРИЯ ИГР, СОЦИАЛЬНАЯ ДИЛЕММА.
Рассматривается задача построения оптимальной стратегии для марковских социальных дилемм с произвольным числом игроков. Вводятся основные определения из теории игр, а также формулируются критерии оптимальности стратегии. Даётся представление о марковских играх и алгоритме Q-обучения. Приводится полное описание алгоритма amTFT. Обобщаются избранные марковские игры, которые затем используются для тестирования алгоритма. Описывается библиотека, созданная для реализации алгоритма и проведения экспериментов. Описываются поставленные эксперименты и интерпретируются полученные результаты.
Kirill Borozdin, GAME COOPERATION WITH REINFORCEMENT LEARNING, qualifying thesis: 57 pages.
Keywords: REINFORCEMENT LEARNING, Q-LEARNING, NEURAL NETWORK, GAME THEORY, SOCIAL DILEMMA.
We consider the problem of constructing an optimal policy for Markov social dilemmas with an arbitrary number of players. First, the essential game theory definitions and the policy optimality conditions are given. After that, we introduce Markov games and the Q-learning algorithm. Then, the amTFT algorithm is described in details. In the next chapter, we generalize some Markov games to use them to test the algorithm. After that, we describe the programming framework designed for experimenting with Markov social dilemmas. Finally, the set up experiments are described and their results are discussed.
Ключевые слова: ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ, Q-ОБУЧЕНИЕ, НЕЙРОННАЯ СЕТЬ, ТЕОРИЯ ИГР, СОЦИАЛЬНАЯ ДИЛЕММА.
Рассматривается задача построения оптимальной стратегии для марковских социальных дилемм с произвольным числом игроков. Вводятся основные определения из теории игр, а также формулируются критерии оптимальности стратегии. Даётся представление о марковских играх и алгоритме Q-обучения. Приводится полное описание алгоритма amTFT. Обобщаются избранные марковские игры, которые затем используются для тестирования алгоритма. Описывается библиотека, созданная для реализации алгоритма и проведения экспериментов. Описываются поставленные эксперименты и интерпретируются полученные результаты.
Kirill Borozdin, GAME COOPERATION WITH REINFORCEMENT LEARNING, qualifying thesis: 57 pages.
Keywords: REINFORCEMENT LEARNING, Q-LEARNING, NEURAL NETWORK, GAME THEORY, SOCIAL DILEMMA.
We consider the problem of constructing an optimal policy for Markov social dilemmas with an arbitrary number of players. First, the essential game theory definitions and the policy optimality conditions are given. After that, we introduce Markov games and the Q-learning algorithm. Then, the amTFT algorithm is described in details. In the next chapter, we generalize some Markov games to use them to test the algorithm. After that, we describe the programming framework designed for experimenting with Markov social dilemmas. Finally, the set up experiments are described and their results are discussed.