引入混合超网络改进MADDPG的双机编队空战自主机动决策
Intelligent maneuvering decision-making in two-UCAV cooperative air combat based on improved MADDPG with hybrid hyper network作者机构:杭州电子科技大学自动化学院杭州310018 中国航天科技创新研究院北京100076
出 版 物:《航空学报》 (Acta Aeronautica et Astronautica Sinica)
年 卷 期:2024年第45卷第17期
页 面:214-228页
核心收录:
学科分类:08[工学] 081105[工学-导航、制导与控制] 0811[工学-控制科学与工程]
基 金:浙江省属高校基本科研业务费专项资金(GK209907299001-021)
主 题:无人作战飞机 空战机动决策 多智能体深度确定性策略梯度(MADDPG) 混合超网络 集中式训练-分布式执行
摘 要:针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机智能体在局部观测数据下对于全局最优机动决策的训练需求。在为各单机设计兼顾局部快速引导和全局打击优势的奖励函数基础上,引入混合超网络将各单机估计的Q值进行单调非线性混合得到双机协同的全局策略Q值,指导分布式Actor网络更新参数,解决多智能体深度强化学习中信度分配难的问题。大量仿真结果表明,相较于典型的MADDPG方法,该方法能够更好地引导各单机做出符合全局协同最优的机动决策指令,且拥有更高的对抗胜率。