MuZero играет в морской бой
Аннотация
Поставлена задача обучить алгоритм на основе нейронных сетей MuZero играть в морской бой. В работе показываются основные различия между MuZero и AlphaZero. Описывается как алгоритм занимается поиском оптимального шага. Написана игра морской бой и интерфейсы для подключения программы на языке программирования Python.
Получено несколько обученных моделей с разными параметрами обучения, у которых процент побед больше 50% процентов, это означает, что на длинной дистанции они чаще выигрывают у ИИ чем проигрывают. В заключении делаются выводы о сложностях процесса обучения, результатах обучения и областях применимости MuZero
Получено несколько обученных моделей с разными параметрами обучения, у которых процент побед больше 50% процентов, это означает, что на длинной дистанции они чаще выигрывают у ИИ чем проигрывают. В заключении делаются выводы о сложностях процесса обучения, результатах обучения и областях применимости MuZero