一种深度强化学习与模仿学习结合的突防策略
A Penetration Strategy Combining Deep Reinforcement Learning and Imitation Learning作者机构:北京理工大学宇航学院北京100081
出 版 物:《宇航学报》 (Journal of Astronautics)
年 卷 期:2023年第44卷第6期
页 面:914-925页
核心收录:
学科分类:08[工学] 081105[工学-导航、制导与控制] 0811[工学-控制科学与工程]
摘 要:针对战斗机在攻击目标过程中遭遇防御弹拦截,需同时考虑突防和突防后打击的要求,提出一种基于深度强化学习与模仿学习理论的战斗机智能机动突防算法。首先建立了战斗机突防问题的马尔可夫决策模型,考虑战斗机与防御弹的相对距离以及突防后与目标的距离、战斗机相对战斗机-目标视线的速度前置角,设计了综合考虑突防和打击的奖励函数。接着将近端策略优化(PPO)算法与模仿学习理论相结合,构建了由判别网络、演员网络和评论家网络构成的生成对抗模仿学习-近端策略优化(GAIL-PPO)智能突防网络。最后,结合专家策略对智能突防网络进行了训练。仿真结果表明:GAIL-PPO突防策略在前期充分借鉴专家策略的经验,能够快速收敛,在后期又能在复杂环境中充分探索,得到比专家策略更优的性能。