检索结果-南通市图书馆

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于模型的机器人强化学习研究综述

模式识别与人工智能 2022年第1期35卷 1-16页

作者：孙世光兰旭光张翰博郑南宁西安交通大学人工智能与机器人研究所西安710049

基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的... 详细信息

基于模型的强化学习通过学习一个环境模型和基于此模型的策略优化或规划,实现机器人更接近于人类的学习和交互方式.文中简述机器人学习问题的定义,介绍机器人学习中基于模型的强化学习方法,包括主流的模型学习及模型利用的方法.主流的模型学习方法具体介绍前向动力学模型、逆向动力学模型和隐式模型.模型利用的方法具体介绍基于模型的规划、基于模型的策略学习和隐式规划,并对其中存在的问题进行探讨.最后,结合现实中机器人学习任务面临的问题,介绍基于模型的强化学习在其中的应用,并展望未来的研究方向.

关键词：人工智能机器人学习强化学习基于模型的强化学习

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

一种基于模型可信度的强化学习方法

控制工程 2024年

作者：王迪张震王洋任坤青岛大学自动化学院山东省工业控制技术重点实验室

针对无模型强化学习样本效率低下和基于模型的强化学习存在模型偏差的问题，文中提出了一种基于模型可信度的强化学习方法MBMC。该算法采用Dyna框架，同时利用无模型方法和基于模型的方法进行更新，有效的提升了样本的利用效率，并提出... 详细信息

针对无模型强化学习样本效率低下和基于模型的强化学习存在模型偏差的问题，文中提出了一种基于模型可信度的强化学习方法MBMC。该算法采用Dyna框架，同时利用无模型方法和基于模型的方法进行更新，有效的提升了样本的利用效率，并提出了一种模型可信度机制，通过模型可信度判断当前模型是否精确，帮助智能体在利用模型进行训练时，在数据缺乏的区域减少更新，有效的避免了模型偏差的累积。所提算法在机器人合作运输任务中进行验证，实验结果表明，MBMC算法能以最快的速度收敛到最优策略。

关键词：强化学习基于模型的强化学习模型可信度协作优化

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于目标导向模型的强化学习算法研究

基于目标导向模型的强化学习算法研究

作者：邱天北京交通大学

学位级别：硕士

序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获得了显著的成果,但需要与环境进行大量交互以获取足够的数据进行策略的训练。而基于模型的强化学习算法通... 详细信息

序列决策问题的求解能力是人工智能的核心要素之一,强化学习是一种序列决策问题的求解方法。无模型的强化学习算法在诸多应用中获得了显著的成果,但需要与环境进行大量交互以获取足够的数据进行策略的训练。而基于模型的强化学习算法通过利用无模型强化学习算法难以利用的低奖励数据,学习得到环境的动态模型,使策略使用模型模拟的数据,从而大大减少与真实环境所需的交互数。基于模型的强化学习由最优控制领域发展而来,原本用于解决完全已知模型的情况下的序列决策问题,最优控制相关的算法通常无需或仅需少量交互即可得到最优策略。使用模型还能提高算法在更多场景的适应能力和扩展能力,模型的预测能力也体现了人类智能中预测和规划的智能模式。但是在复杂的环境中,学习的模型无法避免较高的预测误差的问题,从而导致算法性能比相应的无模型方法差。本文分析了模型误差对强化学习算法性能的影响,并提出了一种优化模型本身的方法,称为目标导向模型。该方法使用Dyna框架实例化的算法在众多主流的强化学习标准测试环境中取得了优于最前沿无模型和有模型强化学习算法的成绩。目标导向模型使用无模型算法提供的状态价值信息计算该状态的时间差分误差,用于表示场景的重要程度,模型训练使用基于该时间差分误差的优先经验重放训练方法,将场景的重要程度引入模型训练。与基本的Dyna算法框架结合,本文设计了基于目标导向模型的强化学习算法。优化训练的模型用于生成模拟的与真实环境交互的经验,无模型算法使用真实经验和模拟经验共同训练,以此减少对真实环境的交互的需求。本文在一系列Mu Jo Co的控制基准任务上对目标导向模型方法进行了实验和分析。实验表明通过对模型训练方式的调整,本文的方法可以降低使用模型的预测误差问题,并在长期预测中保持了稳定而较高的性能。本文的方法能显著提高无模型强化学习算法的采样效率。本文的方法很容易扩展到现有最前沿的显式估计状态价值或状态动作价值的无模型和有模型强化学习算法中。

关键词：基于模型的强化学习时间差分误差优先经验重放

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于模型的动态分层强化学习算法研究

基于模型的动态分层强化学习算法研究

作者：袁姣红中南大学

学位级别：硕士

强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”（学习参数的个数随变量的维数成指数级增长）所困扰,学习效率低下,导致难以及时... 详细信息

强化学习因具有自学习和在线学习的良好特性,已经成为机器学习领域的一个重要分支。然而,智能体在大规模高维度的决策环境下进行强化学习时被“维数灾难”（学习参数的个数随变量的维数成指数级增长）所困扰,学习效率低下,导致难以及时甚至无法完成学习任务。因此,如果能有效缓解“维数灾难”,提出一种适用于未知大规模复杂环境下的高效率强化学习方法,则可以为提高智能体在实际应用中的自适应性提供有效的解决方案,对促进机器学习领域理论和技术的发展具有重要意义。因此,为了缓解未知大规模环境下的“维数灾难”问题,提高学习效率,本文研究将动态分层技术和基于模型的自学习技术相结合的方法,在基于模型的强化学习过程中,提出一种基于探索信息自适应聚类的动态分层强化学习算法。该算法动态生成融合了状态抽象和时态抽象（或称动作抽象）的MAXQ分层结构,从而通过限制MAXQ中每个子任务的策略搜索空间而显著加快了学习速度。首先,在基于模型的强化学习过程中,利用基于探索信息的自适应聚类算法将整个状态空间划分成若干个状态子空间,即通过状态抽象完成了任务的自动分层,并基于状态子空间的终止状态集,提出-种改进的动作选择策略。其次,根据各动作有效执行的频率情况进行时态抽象自动生成类似于MAXQ的分层结构,进而根据有效动作集将各状态子空间归入到相应的MAXQ子任务中,从而自动生成融合了状态抽象和时态抽象的MAXQ分层结构。再次,基于该MAXQ分层框架搜索任务的递归最优策略,并在以后的学习过程中动态调整MAXQ结构,以降低初次分层结构不合理的局限性。通过仿真试验表明,本文提出的算法能显著提高未知环境下智能体的学习效率,有效缓解“维数灾难”问题,从而验证了算法的有效性。最后对论文进行总结,并提出一些有待进一步研究的问题。

关键词：智能体基于模型的强化学习自适应聚类动态分层强化学习 MAXQ

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

柠檬酸三钙中和过程的强化学习优化控制

化工学报 2025年

作者：祝丽娜苗茂栋金赛赵忠盖孙福新石贵阳刘飞江南大学轻工过程先进控制教育部重点实验室江苏国信协联能源有限公司江南大学粮食发酵工艺与技术国家工程研究中心

三钙中和过程是柠檬酸提取工艺的重要工序，是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点，传统控制算法很难对其进行优化控制。针对上述问题，用强化学习算法深度确定性... 详细信息

三钙中和过程是柠檬酸提取工艺的重要工序，是影响柠檬酸成品质量、产品收率的关键工段。该过程具有时滞、无参考轨迹、初始物料变化大、反应不可逆等特点，传统控制算法很难对其进行优化控制。针对上述问题，用强化学习算法深度确定性策略（DDPG）对实际的三钙中和过程进行优化控制。考虑到基于模型的强化学习方法可使智能体在学习的模型中进行无成本的探索，建立三钙中和过程的长短期记忆（LSTM）模型，并对其损失函数进行改进，减小了仿真模型与实际环境的差距，然后利用该模型进行强化学习训练，并将训练好的控制策略用于实际三钙中和过程。实验结果表明，该方法可以将仿真训练出的最优策略成功应用于实际三钙中和过程，并取得较好的结果。

关键词：三钙中和过程优化控制深度确定性策略算法基于模型的强化学习长短期记忆

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

感知环境模型不确定性的强化学习算法

感知环境模型不确定性的强化学习算法

作者：沈硕北京交通大学

学位级别：硕士

强化学习算法在近年来获得了许多进步与成功,然而目前强化学习算法的发展与应用主要局限在电子游戏、棋牌等虚拟领域。强化学习算法在真实世界中的应用始终受限于高昂的采样成本,决策的不稳定等缺点。基于模型的强化学习算法(Model-base... 详细信息

强化学习算法在近年来获得了许多进步与成功,然而目前强化学习算法的发展与应用主要局限在电子游戏、棋牌等虚拟领域。强化学习算法在真实世界中的应用始终受限于高昂的采样成本,决策的不稳定等缺点。基于模型的强化学习算法(Model-based reinforcement learning)是提高样本效率的主要方法之一,也是将强化学习应用于真实世界中的关键技术。然而基于模型的强化学习算法其效果受智能体学到的环境模型预测准确程度影响,环境模型中的预测误差会导致决策质量的下降,这是基于模型的强化学习算法的瓶颈。本文针对环境模型的预测误差以及其对算法的影响做了两部分工作,第一部分工作建立了更加准确的环境模型直接降低了预测误差,第二部分工作改进了强化学习算法,通过更有效地利用环境模型,降低了环境模型预测误差对智能体决策效果的影响,提升了样本效率。为了获得预测准确的环境模型,首先需要对整个环境进行合适的数学建模。本文分析了环境模型中的两种不确定性,认知不确定性(Epistemic Uncertainty)以及偶然不确定性(Aleatoric Uncertainty)。然后通过概率神经网络以及集成学习的方法分别建模了这两种不确定性,使得环境模型有了更好的预测能力,为智能体提供更准确的状态动作轨迹。同时本文通过消融实验证明了建模两种不确定性对于强化学习算法带来了效果提升。一般来说,环境模型预测的轨迹越长则预测误差越大。为了降低环境模型的预测误差对于决策智能体带来的影响,需要调节规划算法中规划轨迹的长度。首先本文通过引入值函数将有限视野的规划(Finite Horizon Planning)拓展为无限视野的规划(Infinite Horizon Planning),以便后续通过衰减系数来间接调整规划长度,然后使用集成学习加固定的随机先验函数的方法学习带有不确定性估计的值函数。结合以上两点,本文提出了多步值函数加权算法(Model Predictive Control withλWeights Value Function,MPV(λ))来间接地调节规划长度,通过找到值函数误差以及环境模型预测误差的平衡点,提高算法的样本效率。最后本文在Mujoco仿真引擎中的多个机器人控制任务中运行了MPV(λ)算法,和传统的规划算法对比策略的累积奖励更高,说明本文提出的算法有更高的样本效率。另外本文最后还通过实验测试了环境模型误差、规划长度、动作序列数量等因素对算法的影响。

关键词：基于模型的强化学习不确定性样本效率规划算法强化学习

基于强化学习的教育资讯个性化推荐系统研究与实现

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于强化学习的教育资讯个性化推荐系统研究与实现

作者：黄莹北京邮电大学

学位级别：硕士

互联网技术的发展使得网络信息资源日益庞大。对于用户而言,海量的数据信息严重干扰其对信息的正确选择,因此信息利用率非常低。对于企业而言,满足用户个性化需求对其扩大用户规模具有不可替代的作用。推荐系统可有效解决信息过载问题,... 详细信息

互联网技术的发展使得网络信息资源日益庞大。对于用户而言,海量的数据信息严重干扰其对信息的正确选择,因此信息利用率非常低。对于企业而言,满足用户个性化需求对其扩大用户规模具有不可替代的作用。推荐系统可有效解决信息过载问题,提供个性化服务,因此无论对于用户还是企业,个性化推荐系统的研究都具有重要的影响和意义。本文为获得更好的推荐性能,将强化学习方法应用到推荐算法中进行了研究,同时针对企业需求,设计和实现了基于强化学习的教育资讯个性化推荐系统,具体工作如下:（1）针对推荐算法需适应用户行为特征变化,捕捉用户兴趣演变的问题,提出了一种基于强化学习和生成对抗网络的推荐算法（Model-based Reinforcement Learning with Generative Adversarial Networks and Attention Mechanism for Recommendation,MRLG Rec）。由于无模型的强化学习方法需要与真实环境频繁交互,代价较大,因此本文采用了基于模型的强化学习方法。本文在采用注意力机制充分提取用户状态特征的基础上,基于生成对抗网络构建了一个用户模拟器,用以模拟用户与推荐智能体之间的交互过程,并将这个模拟器作为强化学习的环境模型,进行推荐策略的学习。对比实验表明,所提用户模拟器能够适应用户的行为特征变化,获得较高用户行为预测准确率,基于此用户模拟器的推荐算法也获得了较高的点击率和长期奖励,有效提高了推荐性能。（2）针对企业需求,设计并实现了一个基于强化学习的教育资讯个性化推荐系统。本文首先分析了教育资讯个性化推荐系统的功能和性能需求,进行了总体架构设计和模块设计,将系统分为数据采集模块、数据存储模块、算法模块和系统业务模块;然后将所提算法MRLG Rec应用于此系统,实现了基于强化学习的教育资讯个性化推荐系统;最后进行了算法效果验证和系统测试,验证了该系统在功能和性能方面的有效性。

关键词：推荐系统基于模型的强化学习生成对抗网络注意力机制

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于隐空间建模的强化学习研究

基于隐空间建模的强化学习研究

作者：刘运新中国矿业大学

学位级别：硕士

基于模型的强化学习算法,能利用已知的环境模型或者学习到的环境模型提高策略网络的学习效率,从而提高样本数据的利用效率。同时,基于模型的强化学习算法还能利用模型进行策略规划,从而进行精确决策和前瞻性决策。基于模型的强化学习算... 详细信息

基于模型的强化学习算法,能利用已知的环境模型或者学习到的环境模型提高策略网络的学习效率,从而提高样本数据的利用效率。同时,基于模型的强化学习算法还能利用模型进行策略规划,从而进行精确决策和前瞻性决策。基于模型的强化学习算法如果直接在高维的环境状态上进行建模,需要重构高维特征,会产生很大的误差,不利于对环境进行建模。所以,近期最先进的基于模型的强化学习算法,大多在环境状态对应的隐空间表示上对环境进行建模,进而利用学习到的环境模型来训练策略网络或者用来进行策略规划。这种方式不但提高了环境建模的效率,同时还提高了算法的鲁棒性。但目前大多数基于模型的强化学习算法,都使用简单的编码器获取单步环境状态的隐空间表示,这种方式不能充分地获取对环境进行建模的有用信息。同时现有的策略规划算法在连续动作空间任务中的表现还不好,需要进行大量的模拟计算才能得到较优的动作,在性能和效率上还存在较大不足。本文以做梦者算法为基础,针对这两方面问题进行了研究,并提出了有效的解决方法。本文主要研究内容如下:1.研究了基于门控循环单元的编码器。目前大部分基于模型的强化学习算法,采用简单编码器获取环境状态信息,存在获取环境状态信息不充分的问题,因此本文设计了一种基于门控循环单元的编码器。该编码器首先利用编码网络对连续、单步的环境状态进行编码,接着利用门控循环单元对每步环境状态对应的编码输出所组成的序列数据进行计算处理,最终得到当前环境状态对应的隐空间表示。该隐空间表示不仅包含了当前环境状态对应的静止信息,还包含了当前环境状态不能体现的动态信息,从而更有利于算法对环境进行建模。实验结果表明,本文提出的基于门控循环单元的编码器,能有效提高算法在高维环境状态中进行建模的效率和准确性。2.研究了基于树搜索和Rollout结合的策略规划算法。目前现有的策略规划算法在离散动作空间任务中的表现优异,但在连续动作空间任务中的策略规划性能还存在较大不足。针对这一问题,本文提出了一种基于树搜索和Rollout结合的策略规划算法。该策略规划算法将蒙特卡罗树搜索和Rollout算法的思想结合在一起,能利用学习到的环境模型,在连续动作空间任务上进行策略搜索。实验结果表明,在算法能建立准确的环境模型的前提下,本文提出的策略规划算法,能有效提高基于模型的强化学习算法对环境的探索效率,进而提高算法整体的学习速度和最终性能。本文有图36幅,表5个,参考文献100篇。

关键词：强化学习基于模型的强化学习门控循环单元编码器策略规划

基于高斯回归的连续空间多智能体强化学习算法研究

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于高斯回归的连续空间多智能体强化学习算法研究

作者：魏海军中南大学

学位级别：硕士

摘要：本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大... 详细信息

摘要：本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态-动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态-个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设已知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。然后,在MAS MBRL-CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi-Cart-Pole与Line-up平衡控制系统仿真验证所提算法的正确性和有效性。

关键词：多智能体系统基于模型的强化学习泛化维数灾难高斯回归