基于近端策略动态优化的多智能体编队方法
Multi-agent Formation Method Based on Dynamic Optimization of Proximal Policies作者机构:西北工业大学航天学院陕西西安710129 上海机电工程研究所上海201109
出 版 物:《空天防御》 (Air & Space Defense)
年 卷 期:2024年第7卷第2期
页 面:52-62页
学科分类:08[工学] 081105[工学-导航、制导与控制] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 080201[工学-机械制造及其自动化]
主 题:无人机集群 深度强化学习 近端策略优化 逆强化学习 集群决策
摘 要:无人机集群系统具有能力冗余、抗毁能力强、适应复杂场景等优势,能够实现高效的任务执行和信息获取。近年来,深度强化学习技术被引入无人机集群编队控制方法中,以解决集群维度爆炸和集群系统建模困难的弊端,但深度强化学习面临训练效率低等问题。本文提出了一种基于改进近端策略优化方法的集群编队方法,通过引入动态估计法作为评价机制,解决了传统近端策略优化方法收敛速度慢和忽视高价值动作问题,有效提升了数据利用率。仿真试验证明,该方法能够提高训练效率,解决样本复用问题,具有良好的决策性能。