咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的无人机空战机动决策方法 收藏

基于深度强化学习的无人机空战机动决策方法

作     者:张祥瑞 谭泰 李辉 张建伟 黎博文 

作者机构:四川大学计算机学院 四川大学视觉合成图形图像技术国防重点学科实验室 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 082503[工学-航空宇航制造工程] 0835[工学-软件工程] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金联合基金项目(U20A20161) 

主  题:无人机空战 近端策略优化算法 六自由度 双重奖励 分层框架 

摘      要:无人机(Unmanned Aerial Vehicle, UAV)近距空战环境复杂,敌机机动高速变化,针对该环境下六自由度无人机空战自主机动决策困难的问题,提出了一种分层框架下的基于双重奖励的近端策略优化(Proximal Policy Optimization with Dual Reward, DR-PPO)无人机自主引导算法。针对传统深度强化学习方法解决六自由度无人机空战任务时,因动作空间维度高、探索空间大导致算法收敛速度慢甚至难以学习到决策的问题,设计无人机空战机动决策分层框架,将空战任务分为决策与控制两个子问题,DR-PPO算法作为决策层生成高层决策,通过双重奖励引导无人机更好地理解正确的空战行为,解决空战任务中奖励稀疏难以收敛的问题;比例积分微分(Proportional Integral Differential, PID)算法作为控制层,生成无人机基本控制律,将高层决策转换并输出原始控制指令,使DR-PPO算法更专注于无人机机动决策层面,减少因解决飞行控制的探索时间,加快算法的收敛速度。仿真结果表明,在典型的空战实验场景中,分层框架下的DR-PPO算法能够缩短探索时间,避免陷入局部最优,有效引导无人机在不同态势下自主学习机动决策并快速到达优势位置,完成空战任务,其收敛效果与机动决策表现均显著优于传统深度强化学习方法下的DR-PPO算法及PPO算法,有效提高了无人机作战能力,并通过复杂多场景测试验证该算法具有良好的泛化性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分