基于改进TD3算法的无人机区域侦察研究
作者机构:陆军工程大学
出 版 物:《飞行力学》 (Flight Dynamics)
年 卷 期:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 082503[工学-航空宇航制造工程] 0835[工学-软件工程] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:无人机 双延迟深度确定性策略梯度算法 双策略网络 自适应延迟更新机制
摘 要:在执行区域侦察任务时,无人机需要更高性能的算法,以便对未知辐射源目标进行快速准确定位。利用改进的双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient,TD3)实现无人机快速侦察目标。针对TD3算法的单策略网络输出动作波动大问题,提出构建双A网络来缓解。并提出利用带修正偏差的指数移动加权平均法建立价值网络与策略网络更新之间的联系,以自适应地改变更新周期。当无人机接收到辐射源信号时,采用最优航迹对辐射源进行定位。未检测到信号时,则根据历史经验飞行寻找信号源。仿真结果表明,所提方法可有效提高算法的收敛速度。