咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >对手类型未知下的两人零和马尔科夫博弈决策 收藏

对手类型未知下的两人零和马尔科夫博弈决策

作     者:王成意 朱进 赵云波 

作者机构:中国科学技术大学信息科学技术学院 

出 版 物:《控制理论与应用》 (Control Theory & Applications)

年 卷 期:2023年

核心收录:

学科分类:07[理学] 070105[理学-运筹学与控制论] 0701[理学-数学] 

基  金:国家重点研发计划(2018AAA0100802) 安徽省自然科学基金(2008085MF198)资助 

主  题:两人零和马尔科夫博弈 非完全信息 极大极小Q学习 纳什均衡 多智能体强化学习 

摘      要:本文研究一类典型的非完全信息博弈问题――对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法――对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分