对手类型未知下的两人零和马尔科夫博弈决策
作者机构:中国科学技术大学信息科学技术学院
出 版 物:《控制理论与应用》 (Control Theory & Applications)
年 卷 期:2023年
核心收录:
学科分类:07[理学] 070105[理学-运筹学与控制论] 0701[理学-数学]
基 金:国家重点研发计划(2018AAA0100802) 安徽省自然科学基金(2008085MF198)资助
主 题:两人零和马尔科夫博弈 非完全信息 极大极小Q学习 纳什均衡 多智能体强化学习
摘 要:本文研究一类典型的非完全信息博弈问题――对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法――对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.