咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度强化学习的卫星远程变轨控制 收藏
基于深度强化学习的卫星远程变轨控制

基于深度强化学习的卫星远程变轨控制

作     者:邱鹏鹏 

作者单位:浙江理工大学 

学位级别:硕士

导师姓名:侯健

授予年度:2023年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 081105[工学-导航、制导与控制] 0811[工学-控制科学与工程] 

主      题:变轨控制 相对运动 深度强化学习 多智能体系统 

摘      要:近年来,随着卫星技术的不断进步,卫星远程变轨控制的需求和重要性日益增长,其在多个领域得到广泛应用。卫星变轨控制直接影响卫星的轨道和运行状态,对于推进航天技术的进步是至关重要的。然而在实际卫星控制中,由于空间飞行环境复杂多变,且卫星自主性不够,这使得任务实现难度异常艰巨,从而加剧任务失败概率。此外,传统方法如C-W方程无法实现基于椭圆轨道下远距离卫星间的相对运动控制。因此,本文深入地研究了单卫星和多卫星远程变轨到达目标轨道附近的问题,主要工作如下:第一,针对单卫星系统下卫星远程变轨到达目标轨道问题,本文提出了基于改进的深度强化学习双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)。通过该算法模拟卫星间断性点火脉冲,实现了卫星的远程变轨控制。首先,针对该问题建立仿真环境下的卫星变轨数学模型和可视化矢量模型。其次,提出一种在深度强化学习下的TD3控制算法来模拟卫星点火操作;期间引入探索噪声增大网络的搜索范围,同时通过设计多种奖励函数引导卫星不断学习,进而在与环境交互中积累经验并优化策略,最终到达目标轨道附近。此外,通过加入Z-score动态数据处理方式增快算法收敛速度。最后,设计与深度神经网络确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的对比实验以及各参数的重要性实验,表明所提出的改进版的TD3算法能够有效控制卫星相对距离使得卫星到达目标轨道附近。第二,针对多卫星系统下卫星远程变轨到达目标轨道问题,本文提出了基于改进的多智能体深度强化学习双延迟深度确定性策略梯度算法(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient,MATD3)。首先,针对该多卫星系统下建立卫星变轨的数学模型,其次,提出一种基于Leader-Follower框架下执行的MATD3算法;期间为剔除一些不合理动作,引入剪枝的思想对动作进行剪枝,从而加快实验的收敛速度;再次,通过设计合理的奖励函数以及领导者与跟随者不断信息交互、经验学习,使得卫星到达目标轨道附近;最后进行仿真实验,实验表明所改进版的方法能够解决多卫星到达目标轨道附近的问题,且对比传统的MATD3方法具有更快的收敛性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分