融合强化学习和进化算法的高超声速飞行器航迹规划
Trajectory planning for hypersonic vehicle combined with reinforcement learning and evolutionary algorithms作者机构:哈尔滨工程大学智能科学与工程学院黑龙江哈尔滨150001
出 版 物:《控制理论与应用》 (Control Theory & Applications)
年 卷 期:2022年第39卷第5期
页 面:847-856页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 081105[工学-导航、制导与控制] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划项目(2018YFC0310102)资助
摘 要:由于高超声速飞行器的复杂特性,对其进行航迹规划是一项非常困难的任务.本文针对高超声速飞行器巡航段,提出了一种将无模型的强化学习和交叉熵方法相结合的在线航迹规划算法.本文将航迹规划问题建模为环境信息缺失程度不同的马尔可夫决策过程,利用(PPO)算法在建立的飞行环境模拟器中离线训练智能体,并通过提高智能体的动作在时间上的相关性来保证航迹的曲率平滑.交叉熵方法则以已训练的智能体由观测到的状态给出的动作作为一种先验知识,进一步在线优化规划策略.实验结果表明了本文的方法可以生成曲率平滑的航迹,在复杂的飞行环境中具有较高的成功率,并且可以泛化到不同的飞行环境中.