咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的飞行器机动躲避策略研究 收藏
基于深度强化学习的飞行器机动躲避策略研究

基于深度强化学习的飞行器机动躲避策略研究

作     者:李玉堂 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:何朕

授予年度:2022年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081105[工学-导航、制导与控制] 0804[工学-仪器科学与技术] 0811[工学-控制科学与工程] 

主      题:机动规避 DQN算法 策略学习 协同追踪 

摘      要:如何提高弹道飞行器的机动躲避能力以保持其作战有效性是弹道飞行器在21世纪面临的重大挑战。近年来,多个军事大国积极发展和部署反导防御系统,弹道飞行器的机动躲避问题研究也变得日益重要。由于防御系统中,追踪飞行器不论是自身结构或是制导方式都具有多样性,难以事先对其完成精确的数学模型构建,那么基于此设计对应的机动策略也显得尤为困难。同时,传统的采用微分对策或矩阵博弈的逃逸方式设计并未考虑多个飞行器同时追踪的场景。鉴于此,本文考虑追踪方数学模型不健全甚至未知的情况下,研究弹道飞行器在多个场景下的躲避策略问题,将DQN(Deep Q-Networks)应用于飞行器机动躲避,在仅仅得知追踪飞行器的运动学信息的前提下,对其行为进行预判,进而做出相应的躲避策略。本文具体研究工作如下:首先,通过对飞行器机动躲避过程的分析,平衡攻防两方的机动能力,完成无动力学模型下飞行器模型与飞行器制导模型的建立;结合强化学习旨在解决序贯决策类问题的特点,构建相应的飞行器躲避策略学习的仿真环境。其次,考虑一对一场景下的飞行器机动躲避问题,提出基于DQN的机动躲避算法,使用DQN算法,结合机动躲避仿真场景,设计机动躲避策略学习在不同阶段的奖励函数,通过将追踪方视为环境的一部分,在强化学习开始前通过场景仿真完成训练数据集的生成,通过对算法的分阶段多回合训练,进一步实现了一对一模式下的飞行器机动躲避策略的学习。再次,考虑一对多场景下的飞行器机动躲避问题,改进了一对一场景下的机动躲避算法,考虑到多个追踪飞行器协同追踪的情况下机动躲避环境的复杂性,重新设计了不同阶段的强化学习过程中所需的奖励函数,神经网络输入数据类型,以及训练回合数,实现了多追踪飞行器下的飞行器机动躲避策略的学习。最后,针对原始DQN算法本身的局限性,将Double-DQN结构与优先经验池回放技术应用于原始DQN算法,实现了基于优先经验池回放的Double-DQN算法,将改进的算法用于一对多机动躲避场景中,设计算法所需参数,进行多次训练,实现了改进算法后的飞行器一对多机动躲避策略的学习,较之原始DQN算法,改进算法具有更高的机动躲避概率和更优的学习效率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分