基于人工智能的航天器追逃博弈机动轨道自主规划方法
作者单位:国防科技大学
学位级别:硕士
导师姓名:张洪波
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 081105[工学-导航、制导与控制] 0835[工学-软件工程] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:追逃博弈 机动轨迹 微分对策 深度神经网络 强化学习
摘 要:航天器追逃博弈是当前轨道力学领域的一个研究热点,传统上多采用微分对策来获取追逃双方的最优控制策略,但是这种方法存在求解过程复杂、计算繁琐的缺点,难以满足对抗任务的强实时性要求。人工智能技术发展的不断深入使得利用人工智能实现全部或部分的在线决策成为可能,本文研究了基于深度神经网络和强化学习算法生成空间目标追逃博弈最优控制策略的问题,实现智能、自主、快速的航天器追逃博弈机动轨道在线自主规划。论文的主要研究内容如下:首先,研究了基于微分对策理论的空间目标追逃博弈最优机动策略生成算法。基于CW方程建立了空间目标追逃的相对运动模型,然后利用微分对策理论对固定逗留期、无限时域、生存型三类微分对策模型进行分析和求解,为后续人工智能算法研究中训练和测试数据集的生成奠定了基础。其次,研究了基于深度神经网络的空间目标追逃博弈机动轨迹自主规划方法。针对三类不同的空间目标追逃博弈问题,分别建立了不同的神经网络模型。固定逗留期和无限时域追逃博弈模型都可以经由深度神经网络直接得到航天器的机动策略,数值仿真结果表明神经网络方法是有效的,其生成的飞行轨迹与最优轨迹基本吻合。生存型追逃博弈模型则只能由神经网络拟合求解机动策略所需的四个中间量,由数值仿真结果可以看出,与传统的优化算法相比,神经网络方法在计算速度方面要快得多。最后,研究了基于强化学习算法的空间目标追逃博弈机动轨迹自主规划方法。对于空间目标追逃这类三维连续空间轨迹求解问题,直接用强化学习进行训练的学习效率比较低下,训练耗时长。针对这一问题,本文在强化学习之前先进行监督学习,并将监督学习的结果用于强化学习策略网络的初始化,进而加速了强化学习的学习进程。仿真结果表明,当航天器所处的环境与监督学习所用的动力学模型存在偏差时,强化学习算法可以在线对网络参数进行调整,从而会使网络模型逐渐适用于当前的环境。