引入反事实基线的无人机集群对抗博弈方法
UAV swarm adversarial game method with a counterfactual baseline作者机构:沈阳航空航天大学电子信息工程学院沈阳110136 沈阳航空航天大学民用航空学院沈阳110136 北京联合大学多智能体系统研究中心北京100101 北京联合大学机器人学院北京100101
出 版 物:《中国科学:信息科学》 (Scientia Sinica(Informationis))
年 卷 期:2024年第54卷第7期
页 面:1775-1792页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 082503[工学-航空宇航制造工程] 0835[工学-软件工程] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划(批准号:2018AAA0100804) 国家自然科学基金(批准号:62173237) 北京联合大学科研(批准号:ZK30202304,SK160202103,ZK50201911,ZK30202107) 卫星导航系统与装备技术国家重点实验室开放基金项目(批准号:CEPNT2022A01) 辽宁省属本科高校基本科研业务费专项(批准号:20240177,20240215) 沈阳市科技计划项目(批准号:22-322-3-34)资助
主 题:无人机集群 对抗博弈 多智能体 深度强化学习 纳什均衡
摘 要:无人机在协同对抗博弈上的应用越来越广泛和深入,尤其是无人机集群在协同探测、全域对抗、策略骗扰等对抗任务中,发挥着越来越重要作用,可靠高效的无人机集群博弈方法是当前的研究热点.本文将反事实基线思想引入到无人机集群对抗博弈环境,提出一种基于反事实多智能体策略梯度(counterfactual multi-agent policy gradients,COMA)的无人机集群对抗博弈方法;在具有无限连续状态、动作的无人机对抗环境中,基于无人机动力学模型,设置符合实际环境的击敌条件和奖励函数,构建基于多智能体深度强化学习的无人机集群对抗博弈模型.红蓝双方无人机集群采取不同的对抗博弈方法,利用多智能体粒子群环境(multi-agent particle environment,MPE)对红蓝双方无人机集群进行非对称性对抗实验,实验结果表明平均累积奖励能够收敛到纳什均衡,在解决4 vs.8的对抗决策问题方面,COMA方法的平均命中率较DQN和MADDPG分别提升39%和17%,在平均胜率方面比DQN和MADDPG分别提升34%和17%.最后,通过对COMA方法的收敛性和稳定性的深入分析,保证了COMA方法在无人机集群对抗博弈任务上的实用性和鲁棒性.