检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

分层强化学习在无人机领域应用综述

人工智能与机器人研究 2024年第1期13卷 66-71页

作者：杨永祥王念杰胡涵川贵州师范大学数学科学学院贵州贵阳日照市岚山区行政审批服务局山东日照贵州师范大学大数据与科学学院贵州贵阳

分层强化学习是强化学习领域的一个重要分支。基于分而治之的思想,将一个复杂问题分解成多个子问题,最终解决整个问题。近年来,由于传感器能力的提高和人工智能算法的进步,基于分层强化学习的无人机自主导航成为研究热点。本篇文章对国... 详细信息

分层强化学习是强化学习领域的一个重要分支。基于分而治之的思想,将一个复杂问题分解成多个子问题,最终解决整个问题。近年来,由于传感器能力的提高和人工智能算法的进步,基于分层强化学习的无人机自主导航成为研究热点。本篇文章对国内外发表的具有代表性的文章进行概述,首先分析无人机和分层强化学习的含义,其次重点研究了分层强化学习在无人机轨迹规划和资源分配的优化问题上的应用。

关键词：分层强化学习无人机人工智能

基于改进分层强化学习的无人驾驶自动超车决策算法研究

维普期刊数据库评论

在线全文

维普期刊数据库

学校读者我要写书评

暂无评论

基于改进分层强化学习的无人驾驶自动超车决策算法研究

作者：赵家民吉林大学

学位级别：硕士

随着自动驾驶技术的高速发展,汽车已经有着越来越高的自主程度。然而超车决策对于现有的自动驾驶技术来说,一直被认为是一项复杂且具有挑战的驾驶任务。因为它需要考虑合适的超车时机,足够的超车距离,还要避免碰撞的发生。因此,如何设... 详细信息

随着自动驾驶技术的高速发展,汽车已经有着越来越高的自主程度。然而超车决策对于现有的自动驾驶技术来说,一直被认为是一项复杂且具有挑战的驾驶任务。因为它需要考虑合适的超车时机,足够的超车距离,还要避免碰撞的发生。因此,如何设计安全有效的超车决策算法模型具有重要意义。现有的自动驾驶决策算法可以分为两类,分别是基于规则优化的方法和基于强化学习的方法。基于规则优化的方法更多适用于简单的场景或者是特定的场景,具有泛化能力弱的特点,无法适应复杂的超车任务。传统的基于的强化学习方法,在解决超车决策任务时会由于任务环境复杂,无法探索到好的动作,导致提前收敛到糟糕结果。而分层强化学习在解决复杂问题和稀疏奖励场景有着良好的效果,它可以将超车任务分成若干个低维技能,再由上层网络进行技能组合,有效的提高了算法解决复杂任务的能力。本文对无人驾驶自动超车决策问题进行了系统研究,提出了基于改进分层强化学习的无人驾驶自动超车决策算法模型,本文主要工作如下:(1)针对分层强化学习算法下层网络预训练环境与上层网络更新环境不一致,导致算法陷入局部最优的问题,结合分层强化学习和柔性演员-评论家算法(Soft Actor Critic,SAC),提出基于辅助V值函数的分层SAC算法。该算法采用双层SAC的结构,利用上层网络更新时的V-critic网络指导下层子任务朝上层网络的更新方向同步更新,使得下层子任务可以在上层网络环境中持续优化。(2)针对自动驾驶超车决策问题,分别根据上下层网络不同的功能,设计了两组动作空间和观察空间以及多组奖励函数。同时,利用课程学习的训练策略,训练了多种符合交通规则的下层子任务,使得算法模型可以在保证高效超车的同时,避免危险的驾驶行为。(3)针对分层强化学习中的策略中断函数及技能长度问题,设计了一个包括主动式策略中断机制和被动式策略中断机制的策略切换模块,该模块使得算法模型可以对环境及时响应,以把握合适的超车时机。(4)针对基于辅助V值函数的分层SAC算法的安全性问题,提出了基于动态安全区域的安全控制模型。该模型可以利用主体车的速度、加速度以及对手车的相对速度构建动态自适应安全区,来判断当前主体车是否处于危险状态,并进行动作干涉。(5)根据现实中多样性的驾驶场景,设计了多人格对手车辆策略,将对手车分为不同的驾驶风格,每种驾驶风格有独特的行动策略,以此来提高算法模型的泛化能力。通过比较本文算法模型与其他对比算法、消融算法以及基准算法在超车率、平均速度、碰撞次数三个维度的超车性能分析,证明了本文提出的算法模型的优秀超车性能和安全性。同时还针对基于辅助V值函数的分层SAC算法部分、课程学习部分以及策略中断模块部分设计了单独的实验分析,来证明这些创新在模型中的有效作用。

关键词：自动驾驶超车决策分层强化学习动态安全区域课程学习

基于分层强化学习的复杂地形下轮式机器人导航方法研究

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于分层强化学习的复杂地形下轮式机器人导航方法研究

作者：王一帆吉林大学

学位级别：硕士

近年来,机器人和人工智能技术的发展使得业界对更智能的轮式机器人的需求不断增长。这种需求在军事行动、救灾工作和地外空间探索等关键领域尤为明显。在这些领域,轮式机器人的工作环境通常是非结构化且复杂的,具有不平坦、崎岖的地形... 详细信息

近年来,机器人和人工智能技术的发展使得业界对更智能的轮式机器人的需求不断增长。这种需求在军事行动、救灾工作和地外空间探索等关键领域尤为明显。在这些领域,轮式机器人的工作环境通常是非结构化且复杂的,具有不平坦、崎岖的地形以及坡道等。为了在此类复杂地形中成功导航,轮式机器人必须具备穿越不同地形的能力,以克服来自不同地形的挑战。此外,它还需要精确的目标导航能力,以有效定位并向预定目的地移动。深度强化学习方法已被广泛应用于轮式机器人导航领域。然而,在复杂地形环境中应用深度强化学习需要设计任务特定的复杂奖励函数,并且容易出现稀疏奖励导致经验样本不均衡等问题。相比于深度强化学习,分层强化学习引入了层次结构,允许智能体在更高层次上学习和执行任务,从而提供了更容易解释、理解以及迁移的策略。这种层次化的强化学习方法适合多任务学习,同时能够有效应对稀疏奖励问题,在处理复杂任务时更具鲁棒性和可扩展性。因此,本文基于分层强化学习开展复杂地形下的轮式机器人导航方法研究。此外,受实验实施条件的限制,相关研究主要在仿真环境中进行。然而,现有方法存在实验环境闭源、可复现性差、地形多样性不足等问题,难以满足相关研究对快速构建多样性地形仿真环境的需求。因此,本文开展了仿真地形生成工具与仿真交互系统的设计与开发。综上所述,本文围绕复杂地形下轮式机器人导航任务的需求,从理论方法研究和仿真环境开发两个方面展开,主要的研究内容与贡献如下:(1)复杂地形下轮式机器人地形穿越方法研究。针对已有方法依赖特定于地形的导航策略或复杂奖励函数的问题,本文提出一种两阶段的训练范式。首先,机器人进行技能发现预训练,以内在奖励的形式学习多样化的地形穿越技能而无需人为设计特定于地形的复杂奖励函数。随后,在分层强化学习阶段,机器人学习筛选并组合技能,以实现穿越更复杂的地形环境。所提出的两阶段训练范式具有奖励函数依赖性低的优势,同时机器人所习得的技能可以进一步赋能其他任务。(2)复杂地形下轮式机器人目标导航方法研究。针对复杂环境下稀疏奖励导致经验样本分布不均衡、样本效率低的问题,本文提出了一个结合辅助任务模块的分层强化学习框架Res-HRL。Res-HRL将总体任务拆分为主任务与辅助任务,并以分层结构进行联合建模和同步学习。区别于已有的辅助任务学习方法,Res-HRL中的辅助任务模块对导航目标是不可知的,减少了辅助任务与主任务之间学习目标的耦合。Res-HRL具有更强的探索能力以应对稀疏奖励问题,同时具备了一定的模块可扩展性。(3)仿真地形生成工具与仿真交互系统的设计与开发。针对现有研究实验环境可复现性差和地形场景多样性不足导致训练数据有限的问题,本文基于Webots设计和开发了仿真地形生成工具Terrain Builder和一个仿真交互系统。Terrain Builder可以快速便捷地随机化生成包括坡道、台阶在内的多种地形,同时具备良好的可扩展性以支持二次开发。Terrain Builder为复杂地形下的机器人任务研究提供了一个地形生成基础工具,对该领域的进一步发展具有重要工程价值。基于Terrain Builder,本文进一步构建了一个可用于复杂地形下轮式机器人导航任务研究的仿真交互系统。基于该系统,本文对所提出的方法进行了仿真实验,并从多个评价指标论证了它们的优越性。

关键词：分层强化学习机器人导航技能发现辅助任务学习仿真环境开发

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于分层强化学习的翼伞轨迹跟踪控制

基于分层强化学习的翼伞轨迹跟踪控制

作者：杨永祥贵州师范大学

学位级别：硕士

无动力翼伞是一种依靠气流进行飞行的飞行装备,通过操作下拉左右后缘以实现转向。由于受外界环境干扰明显,精确稳定的实现翼伞系统的轨迹跟踪非常困难。强化学习旨在通过与环境的交互来学习如何做出最优决策。其中,分层强化学习作为其... 详细信息

无动力翼伞是一种依靠气流进行飞行的飞行装备,通过操作下拉左右后缘以实现转向。由于受外界环境干扰明显,精确稳定的实现翼伞系统的轨迹跟踪非常困难。强化学习旨在通过与环境的交互来学习如何做出最优决策。其中,分层强化学习作为其衍生方法之一,通过将复杂任务分解成若干简单子任务并构建层次化的决策过程来简化学习问题,每一层的策略都有具体的目标,这些目标共同作用于解决整体问题。分层强化学习模仿了人类解决复杂问题的方式,也因此提供了一种潜在的有效途径,以在复杂环境条件下精确和稳定地控制无动力翼伞飞行。本文探索分层强化学习在翼伞航迹跟踪控制任务中的应用,基于分层强化学习算法在9-DOF翼伞仿真环境中训练航迹跟踪控制器,以实现翼伞对目标航迹的精准跟踪。为适应不同风向条件下的航迹跟踪要求,首先,通过控制训练轨迹(根据风方向与飞行方向的夹角将轨迹划分为顺风,侧风和逆风三个类别),利用强化学习PPO算法训练出三个航迹跟踪子控制模型;然后,固定底层子控制模型,基于PPO算法训练子模型切换和子模型集成上层控制模型,实现分层强化学习控制;最后,基于传统的option分层强化学习算法框架,设计优化策略终止函数,进一步提高了航迹跟踪子模型切换的灵活性。仿真实验结果显示,在三种风向条件下,所提出的强化学习翼伞航迹跟踪子控制模型都具有超越通用控制模型的性能;所提出的强化学习分层控制模型能够高效地适应风向变化,在仿真任务中实现了精确和稳定的翼伞航迹跟踪;采用分层强化学习框架和优化策略终止函数进一步提升了模型的灵活性和鲁棒性,使其能够更好地应对复杂的环境条件。

关键词：强化学习分层强化学习航迹跟踪控制

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于分层强化学习的低过载比拦截制导律

空天防御 2024年第1期7卷 40-47页

作者：王旭蔡远利张学成张荣良韩成龙西安交通大学电子与信息学部陕西西安710049 陆军装备部驻上海地区第三军事代表室上海200031 上海机电工程研究所上海201109

为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有... 详细信息

为解决低过载比和纯角度量测等约束下的三维机动目标拦截制导问题,提出了一种基于分层强化学习的拦截制导律。首先将问题建模为马尔科夫决策过程模型,并考虑拦截能量消耗与弹目视线角速率,设计了一种启发式奖赏函数。其次通过构建具有双层结构的策略网络,并利用上层策略规划阶段性子目标来指导下层策略生成所需的制导指令,实现了拦截交战过程中的视线角速率收敛,以保证能成功拦截机动目标。仿真结果验证了所提出的方法较增强比例导引具有更高的拦截精度和拦截概率,且拦截过程的需用过载更低。

关键词：末制导机动目标拦截低过载比分层强化学习

基于分层强化学习的多智能体博弈策略生成方法

在线全文

学校读者我要写书评

暂无评论

无线电工程 2024年第6期54卷 1361-1367页

作者：畅鑫李艳斌刘东辉中国电子科技集团公司第五十四研究所河北石家庄050081 石家庄铁道大学管理学院河北石家庄050043 石家庄铁道大学工程建设管理研究中心河北石家庄050043

典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策... 详细信息

典型基于深度强化学习的多智能体对抗策略生成方法采用“分总”框架,各智能体基于部分可观测信息生成策略并进行决策,缺乏从整体角度生成对抗策略的能力,大大限制了决策能力。为了解决该问题,基于分层强化学习提出改进的多智能体博弈策略生成方法。基于分层强化学习构建观测信息到整体价值的决策映射,以最大化整体价值作为目标构建优化问题,并推导了策略优化过程,为后续框架结构和方法实现的设计提供了理论依据;基于决策映射与优化问题构建,采用神经网络设计了模型框架,详细阐述了顶层策略控制模型和个体策略执行模型;基于策略优化方法,给出详细训练流程和算法流程;采用星际争霸多智能体对抗(StarCraft Multi-Agent Challenge,SMAC)环境,与典型多智能体方法进行性能对比。实验结果表明,该方法能够有效生成对抗策略,控制异构多智能体战胜预设对手策略,相比典型多智能体强化学习方法性能提升明显。

关键词：分层强化学习多智能体博弈深度神经网络

同方期刊数据库博看期刊评论

在线全文

学校读者我要写书评

暂无评论

基于分层强化学习的机器人自主避障算法仿真

计算机仿真 2024年第4期41卷 397-401页

作者：安燕霞郑晓霞晋中信息学院智能工程学院山西晋中030800 太原理工大学航空航天学院山西太原030024

智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化... 详细信息

智能机器人可以实时感知周围环境信息,通过绘制环境地图控制行动轨迹,但是如何自主导航起点到终点的同时避开障碍物,获取最优路径的问题仍然需要进一步解决。为提高机器人路径规划能力,减少机器人与障碍物的碰撞概率,提出基于分层强化学习算法的机器人自主避障方法。结合机器人的移动速度、角速度等相关信息,建立运动学模型,分别确立局部和全局坐标系。通过坐标转换,采集机器人和障碍物信息,构建分层强化学习整体架构,分为环境信息交互、子任务选择和根任务协作三个层次。将Q学习方法作为强化学习策略,设定Q函数值更新规则。通过笛卡尔乘积形式表示环境状态信息,选取合理的奖赏函数,提高学习效率,通过赋予Q值最大化的方式控制机器人最佳动作,实现自主避障。实验测试结果验证了上述方法能够精准躲避静态和动态障碍物,计算复杂度较低,可避免陷入局部最优。

关键词：机器人分层强化学习自主避障学习策略奖赏函数

在线全文

学校读者我要写书评

暂无评论

分层强化学习研究综述

模式识别与人工智能 2005年第5期18卷 574-581页

作者：沈晶顾国昌刘海波哈尔滨工程大学计算机科学与技术学院哈尔滨150001

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被"维数灾"问题所困扰。近年来,分层强化学习方法引入抽象(Abstraction)机制,在克服"维数灾"方面取得了显... 详细信息

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但是,强化学习一直被"维数灾"问题所困扰。近年来,分层强化学习方法引入抽象(Abstraction)机制,在克服"维数灾"方面取得了显著进展。作为理论基础,本文首先介绍了强化学习的基本原理及基于半马氏过程的Q-学习算法,然后介绍了3种典型的单Agent分层强化学习方法(Option、HAM和MAXQ)的基本思想,Q-学习更新公式,概括了各方法的本质特征,并对这3种方法进行了对比分析评价。最后指出了将单Agent分层强化学习方法拓展到多Agent分层强化学习时需要解决的问题。

关键词：分层强化学习半马氏过程 Q-学习多智能体系统

在线全文

学校读者我要写书评

暂无评论

一种基于启发式奖赏函数的分层强化学习方法

计算机研究与发展 2011年第12期48卷 2352-2358页

作者：刘全闫其粹伏玉琛胡道京龚声蓉苏州大学计算机科学与技术学院江苏苏州215006

针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习... 详细信息

针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度.

关键词：分层强化学习试错启发式奖赏函数俄罗斯方块 “维数灾”