咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算... 收藏

一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法

Distributed Multi-agent Soft Actor-Critic A lgorithm With Probabilistic Prioritized Experience Replay

作     者:张严心 孔涵 殷辰堃 王子豪 黄志清 ZHANG Yanxin;KONG Han;YIN Chenkun;WANG Zihao;HUANG Zhiqing

作者机构:北京交通大学电子信息工程学院北京100044 北京工业大学信息学部北京100124 

出 版 物:《北京工业大学学报》 (Journal of Beijing University of Technology)

年 卷 期:2023年第49卷第4期

页      面:459-466页

核心收录:

学科分类:08[工学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论] 

基  金:国家自然科学基金资助项目(62273028) 中央高校基本科研业务费重大项目(2018JBZ006)。 

主  题:多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 软行动-评论者算法 

摘      要:针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分