咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于自注意力机制和策略映射重组的多智能体强化学习算法 收藏

基于自注意力机制和策略映射重组的多智能体强化学习算法

A Multi-Agent Reinforcement Learning Method Based on Self-Attention Mechanism and Policy Mapping Recombination

作     者:李静晨 史豪斌 黄国胜 LI Jing-Chen;SHI Hao-Bin;HWANG Kao-Shing

作者机构:西北工业大学计算机学院西安710072 “高雄中山大学”电机系中国高雄0008 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2022年第45卷第9期

页      面:1842-1858页

核心收录:

学科分类:0710[理学-生物学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 0828[工学-农业工程] 081104[工学-模式识别与智能系统] 08[工学] 0903[农学-农业资源与环境] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61976178,62076202) 之江实验室开放课题(2022NB0AB07) 中国陕西省重点研发计划项目(2022GY-090) 中国人工智能学会-华为MindSpore学术奖励基金(CAAIXSJLJJ-2021-041A) 西北工业大学博士生创新基金(CX2022016)资助 

主  题:多智能体系统 多智能体强化学习 深度强化学习 注意力机制 

摘      要:多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自注意力模块的有效性,进一步为我们的结论提供支持.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分