АЛГОРИТМ НАХОЖДЕНИЯ ФУНКЦИИ ВОЗНАГРАЖДЕНИЯ В МАРКОВСКОМ ПРОЦЕССЕ ПРИНЯТИЯ РЕШЕНИЙ

Стихин Семен Сергеевич

Аннотация


СтихинС.С. АЛГОРИТМ НАХОЖДЕНИЯ ФУНКЦИИ ВОЗНАГРАЖДЕНИЯ
В МАРКОВСКОМ ПРОЦЕССЕ ПРИНЯТИЯ РЕШЕНИЙ: стр. 25, ист. 4.
Ключевые слова: ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ,МАРКОВСКИЙ ПРОЦЕСС ПРИНЯТИЯ РЕШЕНИЯ, ОБРАТНОЕ ОБУЧЕНИЕ, РЕГУЛЯРИЗАЦИЯ
Объект исследования — марковский процесс принятия решений.
Предмет исследования - алгоритм линейного программирования восстановления функции вознаграждения в марковском процессе принятия решений.
Цель работы — реализация и исследование алгоритма линейного программирования восстановления функции в марковском процессе принятия решений.
В данной работе рассмотрен метод линейного программирования решения задачи восстановления функции, в котором задача нахождения функции сводится к известной задачи линейной оптимизации.
В результате исследований был реализован один из методов обратного обучения с подкреплением для решения задачи восстановления функции в МППР - алгоритм линейного программирования.
Было исследовано, что он имеет хорошую точность на функциях с малой областью определения, при этом не пригоден для использования на функциях с большой областью определения из-за долгого времени использования.
Были рассмотрены разные варианты выбора коэффициентов регуляризации и найдены зависимости между ними и точностью восстановления функции.