咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向多无人机对抗任务的强化学习算法研究 收藏
面向多无人机对抗任务的强化学习算法研究

面向多无人机对抗任务的强化学习算法研究

作     者:张冠宇 

作者单位:国防科技大学 

学位级别:硕士

导师姓名:戴华东;李渊

授予年度:2019年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 082503[工学-航空宇航制造工程] 0835[工学-软件工程] 0825[工学-航空宇航科学与技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:无人机对抗 空战决策 多智能体 深度强化学习 训练优化 

摘      要:作为一种典型的无人作战形式,多无人机对抗复杂多变、不确定强,一直是军事领域的研究热点。本文通过空战任务分析、多智能体系统建模、多无人机空战仿真等方法,对面向多无人机对抗任务的深度强化学习方法开展了研究。本文的研究内容主要包括:1、阐述了多无人机对抗任务的知识背景与研究价值。对多智能体深度强化学习算法与其应用领域进行了详细介绍,并将其感知与决策能力应用在多无人机协同空战,提出了面向多无人机对抗任务的深度强化学习方法。2、针对深度强化学习算法在多无人机对抗任务中存在的训练困难、生成的模型能力差等问题,提出了两种训练优化技术。场景迁移技术能够利用智能体在简单场景下获取的经验帮助在复杂场景中的训练。自我博弈技术是让智能体通过对抗与自己能力相同的对手来提高能力。3、无人机对抗领域中存在着丰富的人类经验。本文提出了规则耦合强化学习方法,将人类经验抽象为战术规则,并使用战术规则指导智能体的学习过程。该方法能够减少无效探索来提高训练速度和智能体的能力。4、针对深度强化学习算法在复杂的多智能体环境中计算资源耗费大、收敛速度慢的问题,本文提出了一种多智能体深度强化学习并行方法。将多智能体深度强化学习的训练过程并行化,有利于快速修正超参数,能够充分利用计算资源,降低训练所需时间。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分