检索结果-南通市图书馆

检索条件"主题词=军事智能博弈"

共 1 条记录，以下是1-10 订阅

全选清除本页清除全部题录导出标记到"检索档案"

详细简洁

排序：

先验知识启发的Q-learning势能奖励在线学习技术

先验知识启发的Q-learning势能奖励在线学习技术

引用

作者：陈晓轩国防科技大学

学位级别：硕士

近年来强化学习算法飞速发展,其应用领域涵盖了游戏AI、无人机集群控制、自然语言处理等。强化学习研究在取得进步的同时,也面临着许多问题和挑战。奖励稀疏问题是强化学习算法面临的主要挑战之一,在机器人控制、无人驾驶等现实问题中... 详细信息

近年来强化学习算法飞速发展,其应用领域涵盖了游戏AI、无人机集群控制、自然语言处理等。强化学习研究在取得进步的同时,也面临着许多问题和挑战。奖励稀疏问题是强化学习算法面临的主要挑战之一,在机器人控制、无人驾驶等现实问题中普遍存在,阻碍了强化学习的应用落地。奖励信号描述了智能体的目标,是影响强化学习算法训练的关键因素。奖励稀疏问题意味着智能体很难通过随机动作获得目标信号,而需要执行很长序列的动作才能得到环境奖励。一方面,奖励稀疏问题导致智能体在长序列的动作中,难以找到对解决任务有作用的关键动作。另一方面,获得信号周期过长导致智能体训练缓慢,甚至无法收敛。奖励设计作为解决奖励稀疏问题的重要方法,是强化学习领域的研究热点,国内外的研究者希望通过研究有效的奖励设计方法,推动解决奖励稀疏问题。基于势能的奖励塑造方法是强化学习奖励设计的主要方法之一,通过设计状态势能塑造的奖励函数可以加速智能体的训练,减少智能体收敛到最优策略的训练时间。但是在实际工程应用中,基于势能的奖励塑造是一项需要时间和经验的复杂工作。常用的方法是设计者根据个人的经验或是书本知识等高阶人类知识,针对具体问题设置硬编码的势能函数。由于强化学习问题本身的复杂性和人类知识的有限性,这样设计的势能函数往往不能适应变化的环境,不具有通用性,甚至会误导智能体,导致设计者陷入训练-训练效果不好-微调奖励函数-再训练的重复性工作中。在强化学习算法的应用环境中,如何有效应用高阶的人类先验知识,启发式地设计奖励塑造方法,成为了本文重点研究的问题之一。基于值函数的强化学习算法（Q-learning）是最重要强化学习算法之一,在Q-learning中,奖励被用于以价值迭代的方式更新状态动作值函数,奖励稀疏会严重影响这一进程,甚至导致算法无法收敛。如何设计通用的智能算法决策框架,结合奖励塑造方法,加速单智能体及多智能体Q-learning算法训练以获得最优策略,是本文的第二个重点研究问题。本文的主要工作内容为:1.引入先验知识启发的状态聚合方法,研究在线奖励塑造方法。本研究采用先验知识启发的方法,提取专家知识中的人类目标作为奖励塑造的子目标,使用子目标作为关键节点进行状态聚合。基于聚合状态,建立了一个上层抽象马尔可夫决策过程（Markov Decision Process,MDP）模型,使用在线强化学习算法求解MDP,进而获得抽象的值函数。获得值函数以后,根据值函数在线构建奖励函数。采用上述方法,可以在关键节点处为智能体提供先验知识启发的奖励值,提高智能体的探索效率。2.结合上文提出的先验知识启发的在线奖励塑造方法,本研究设计了一种在线奖励塑造与离策略强化学习结合的学习框架,研究了先验知识启发的在线奖励塑造方法在单智能体强化学习中的应用效果。学习框架的第一层通过求解抽象状态MDP模型,在线学习势能函数和奖励函数。第二层使用具体状态和上层提供的奖励函数,构建具体马尔可夫决策过程模型,使用离策略强化学习算法求解最优策略。为验证提出框架对于解决奖励稀疏问题的有效性,本研究将在线奖励塑造与DQN算法结合的学习框架应用于迷宫环境的寻路实验,实验证明该框架能够有效提升算法的探索效率。3.设计了先验知识启发的在线奖励塑造方法与MARL算法结合的学习框架,研究了先验知识启发的在线奖励塑造方法在MAS系统中的应用效果。基于上述框架,本研究针对多智能体系统（Multi Agent System,MAS）中的奖励稀疏问题,将在线奖励塑造算法和MARL领域的经典算法QMIX算法结合,设计了先验知识启发的奖励塑造QMIX算法（QMIX-Knowledge Inspiring Reward Shaping,QMIX-KRS）。通过使用在线奖励塑造的方法,促进智能体进行合理的奖励长时信用分配,促使奖励稠密化,解决奖励稀疏问题。通过分布式决策、集中式训练的方式,学习奖励函数在多智能体上的空间分布,引导单智能体在根据局部观测进行决策的同时,协同多智能体考虑算法的全局帕列托最优解。4.针对兵棋推演中的奖励稀疏问题,基于全国兵棋挑战大赛推演平台,开展在线奖励塑造方法在军事智能博弈中的应用研究。本研究基于全国兵棋挑战大赛的推演平台,设计了一个海空协同作战的兵棋推演环境进行实验验证。实验分别使用QMIX-KRS算法控制的红方、单纯QMIX算法控制的红方与传统规则算法控制的蓝方进行对战,在训练一千局后,QMIX-KRS算法控制的红方学习到了一个较好的多智能体协作策略,与蓝方作战可以获得70%的胜率;在奖励稀疏的海空协同作战环境中,作为对比的单纯QMIX算法学习效果不佳。对比试验证明,本研究提出的方法框架在多智能体强化学习环境中可以引导智能体重点关注先验知识中提取的战场关键节点,提升了强化学习算法的探索效率。

关键词：强化学习奖励塑造先验知识抽象MDP模型军事智能博弈

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

全选清除本页清除全部题录导出标记到“检索档案”

共1页 << < 1 > >>

回到顶部

执行限定条件

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：