检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

基于符号知识的选项发现方法

计算机科学 2024年

作者：王麒迪沈立炜吴天一复旦大学计算机科学技术学院

基于选项（option）的层次化策略学习是分层强化学习领域的一种主要实现方式。其中，选项表示特定动作的时序抽象，一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标，已有的研究工作使用监督或无监督方式从... 详细信息

基于选项（option）的层次化策略学习是分层强化学习领域的一种主要实现方式。其中，选项表示特定动作的时序抽象，一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标，已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而，基于监督的选项发现过程需要人为分解任务问题并定义选项策略，带来大量额外负担；无监督方式发现的选项则难以包含丰富语义，限制后续选项的重用。为此，本文提出一种基于符号知识的选项发现方法，只需对环境符号建模，所得知识可指导环境中多种任务的选项发现，并为发现的选项赋予符号语义，从而在新任务执行时被重复使用。本方法将选项发现过程分解为轨迹切割和行为克隆两阶段步骤：轨迹切割旨在从演示轨迹提取具备语义的轨迹片段，为此训练一个面向演示轨迹的切割模型，引入符号知识定义强化学习奖励评价切割的准确性；行为克隆根据切割得到的数据监督训练选项，旨在使选项模仿轨迹行为。使用本文方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示，本文方法在离散和连续空间环境中切割准确率均高出基线方法数个百分点，并在复杂环境任务的切割中提高到20%。另外，选项重用实验的结果证明，赋予符号语义增强的选项在新任务重用上拥有相较于基线方法更快的训练速度，并在基线方法无法完成的复杂任务中仍然得到良好收敛。

关键词：分层强化学习演示学习选项发现马尔科夫决策过程

基于互信息优化的Option-Critic算法

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

计算机科学 2024年第2期51卷 252-258页

作者：栗军伟刘全徐亚鹏苏州大学计算机科学与技术学院江苏苏州215006 软件新技术与产业化协同创新中心南京210000 吉林大学符号计算与知识工程教育部重点实验室长春130012 苏州大学江苏省计算机信息处理技术重点实验室江苏苏州215006

时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Crit... 详细信息

时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Critic(OC)框架在Option框架的基础上,通过策略梯度理论,可以有效解决此问题。然而,在策略学习过程中,OC框架会出现Option内部策略动作分布变得十分相似的退化问题。该退化问题影响了OC框架的实验性能,导致Option的可解释性变差。为了解决上述问题,引入互信息知识作为内部奖励,并提出基于互信息优化的Option-Critic算法(Option-Critic Algorithm with Mutual Information Optimization,MIOOC)。MIOOC算法结合了近端策略Option-Critic(Proximal Policy Option-Critic,PPOC)算法,可以保证下层策略的多样性。为了验证算法的有效性,把MIOOC算法和几种常见的强化学习方法在连续实验环境中进行对比实验。实验结果表明,MIOOC算法可以加快模型学习速度,实验性能更优,Option内部策略更有区分度。

关键词：深度强化学习时序抽象分层强化学习互信息内部奖励 Option多样性

强化学习及其在机器人任务规划中的进展与分析

在线全文

学校读者我要写书评

暂无评论

模式识别与人工智能 2023年第10期36卷 902-917页

作者：张晓明高士杰姚昌瑀褚誉彭硕安徽大学物质科学与信息技术研究院合肥230601

强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的... 详细信息

强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习和分层强化学习的研究进展,着重探讨基于强化学习的机器人任务规划的研究进展,并讨论各种强化学习及其应用情况.最后总结强化学习在机器人应用中面临的问题与挑战,展望未来的研究方向.

关键词：机器人任务规划强化学习无模型强化学习基于模型的强化学习分层强化学习

海空跨域协同兵棋AI架构设计及关键技术分析

在线全文

学校读者我要写书评

暂无评论

指挥控制与仿真 2024年第2期46卷 35-43页

作者：苏炯铭罗俊仁陈少飞项凤涛国防科技大学智能科学学院湖南长沙410073

以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈... 详细信息

以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈模型,分析了相关的均衡解概念;在分析典型智能体框架基础上,针对海空兵棋推演决策博弈过程,提出基于多智能体分层强化学习的智能体双层架构,能够有效解决智能体间协作和维度灾难问题;从兵力协同、智能体网络设计、对手建模和训练机制共4个方面分析了关键技术。期望为海空兵棋AI设计实现提供架构指导。

关键词：海空兵棋跨域协同兵棋推演多智能体智能博弈模型架构分层强化学习

基于智慧客服系统的改进MaxQ算法模型研究

在线全文

学校读者我要写书评

暂无评论

基于智慧客服系统的改进MaxQ算法模型研究

2023电力行业信息化年会

作者：张益兵朱朝勇袁亮张丽雅

目前智慧客服系统机器人问答技术通过分词、词性标注、生成词向量、相似度计算等较常规的方式实现,自我学习、客户意图理解等能力较差,强化学习是提升机器人自我学习能力的好方法,故引入强化学习算法。但在强化学习的过程中,状态空间往... 详细信息

目前智慧客服系统机器人问答技术通过分词、词性标注、生成词向量、相似度计算等较常规的方式实现,自我学习、客户意图理解等能力较差,强化学习是提升机器人自我学习能力的好方法,故引入强化学习算法。但在强化学习的过程中,状态空间往往会随着特征数量的增大呈指数级增长,针对"维数灾难"的问题,提出了分层强化学习算法。但传统的MaxQ算法的完成函数等参数受到了限制,为提高其处理任务的能力,创新性地提出改进的MaxQ算法,通过调整传统MaxQ算法的协作规则参数,提高了收敛速度,学习知识点的速度提升了约29%,且机器人命中客户问题的次数提升约4%。

关键词：智慧客服强化学习分层强化学习 MaxQ算法改进MaxQ算法

来源： cnki会议评论

在线全文

cnki会议

学校读者我要写书评

暂无评论

考虑威胁区通行概率的变体飞行器轨迹规划

航天控制 2024年第2期42卷 35-41页

作者：王翰桐禹春梅程晓明北京航天自动控制研究所北京100854

针对威胁区交叉重叠且全覆盖飞行路径的变体飞行器轨迹规划问题,提出了一种考虑威胁区通行概率和变外形参数优化的轨迹规划方法。基于分层强化学习思想,通过设置飞行环境集合、决策选项、代价函数、Q函数以及选项内的策略等,建立了变体... 详细信息

针对威胁区交叉重叠且全覆盖飞行路径的变体飞行器轨迹规划问题,提出了一种考虑威胁区通行概率和变外形参数优化的轨迹规划方法。基于分层强化学习思想,通过设置飞行环境集合、决策选项、代价函数、Q函数以及选项内的策略等,建立了变体飞行器路径决策的分层强化学习模型;通过训练得到的评价网络,能够结合威胁区通行概率对实际的场景进行路径决策;根据飞行器可变外形的特点,优化所得决策结果的参数,得到全过程的通行轨迹和外形形态。仿真结果表明,该方法能够根据实际情况实时决策飞行路径,经过优化后得到全过程的优化轨迹和飞行形态。

关键词：变体飞行器威胁区路径决策轨迹规划分层强化学习

强化学习算法在超视距空战辅助决策上的应用研究

在线全文

学校读者我要写书评

暂无评论

航空兵器 2021年第2期28卷 55-61页

作者：吴宜珈赖俊陈希亮曹雷徐鹏陆军工程大学南京210000 中国人民解放军32526部队江苏无锡214000 中国人民解放军31102部队南京210000

针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 详细信息

针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。

关键词：超视距空战智能决策人工智能强化学习近端策略优化算法分层强化学习

空天地网络中基于强化学习的通信计算与缓存技术研究

在线全文

学校读者我要写书评

暂无评论

空天地网络中基于强化学习的通信计算与缓存技术研究

作者：陈梦婷北京邮电大学

学位级别：硕士

为了满足迸发的通信需求,实现未来6G“万物互联”的愿景,空基、天基与地基网络呈现出一体化的趋势。与传统的通信网络系统对比,在整合了卫星、高空平台、无人机与地面网络后,空天地一体化网络(Space-air-earth networks/Space-air-terre... 详细信息

为了满足迸发的通信需求,实现未来6G“万物互联”的愿景,空基、天基与地基网络呈现出一体化的趋势。与传统的通信网络系统对比,在整合了卫星、高空平台、无人机与地面网络后,空天地一体化网络(Space-air-earth networks/Space-air-terrestrial integrated networks)可以提供全球无缝的网络连接。空天地网络还可以充分利用不同的网络特性进行协同互补,达到更低的延迟、更低的能耗与更大的网络容量。但是,空天地网络中的节点众多、不同系统的资源异构性强、信道与拓扑随机性强、用户通信需求复杂等特点,都给无线网络资源的分配带来了极大的困难,传统的分配方法已无法满足其需求。同时,神经网络、强化学习等人工智能算法已经在无线通信的各个领域得到了广泛的关注。尤其是在网络资源分配方面,智能代理可以对网络状态与网络拓扑进行一定的预测与学习,从而更加智能、精准地进行复杂、动态的通信、计算与缓存资源分配。所以,面对新的挑战,利用人工智能算法对空天地网络进行资源分配已经是大势所趋。针对空天地网络中的通信、计算与缓存问题,本文采用Q学习(Q-Learning,QL)、分层强化学习(Hierarchical reinforcement learning,HRL)等算法,构建了可靠、精准的资源分配方案,为推动空天地网络的实施进行了探索。本文的主要研究成果与贡献如下:1、基于Q学习的LEO卫星切换算法针对通信问题,由于空基与天基网络节点的天然移动性,空天地网络中的移动性管理是亟需解决的问题,而优化卫星切换方案又是移动性管理中最常见的方法。依据卫星网络的拓扑变化特点,本研究点基于Ornstein-Uhlenbeck过程对拓扑变化中的星地信道进行建模,并提出一种基于强化学习算法的低地球轨道(Low-earth-orbit,LEO)卫星切换方案,通过对累积信号质量的优化,解决了低轨卫星网络中切换时信号质量不稳定的问题。对算法进行的仿真验证表明了应用此算法减少了切换次数,降低了乒乓切换率。2、基于分层强化学习的星地融合网络计算卸载算法针对计算与缓存的问题,充分利用卫星网络所能采集的绿色能源将会是一条可行的路径。本研究点针对卫星处于轨道不同区域的绿色能源采集情况进行了分析,考虑服务器的缓存限制,提出了一种基于深度Q网络(Deep Q-learning,DQN)的计算卸载算法,通过提高绿色能源的利用率及卸载算法的智能性,优化了星地融合网络中的计算卸载策略。同时,利用分层强化学习与多层网络及卸载问题的适配性,提出了一种基于HRL的卸载算法,并对算法进行了仿真验证,结果表明其提高了计算卸载算法整体的准确性、稳定性及实现速度。

关键词：空天地网络强化学习深度强化学习分层强化学习资源分配

移动无线接入网中基于深度强化学习的虚拟功能组件伸缩优化

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

移动无线接入网中基于深度强化学习的虚拟功能组件伸缩优化

作者：欧阳文江北京邮电大学

学位级别：硕士

网络功能虚拟化技术能够降低电信服务提供商为给定服务的每个功能部署物理专用设备的成本。由于服务链的复杂性和流量模式的动态变化,使得虚拟网络功能组件的伸缩优化问题成为网络功能虚拟化研究的主要挑战之一。采用强化学习可以有效... 详细信息

网络功能虚拟化技术能够降低电信服务提供商为给定服务的每个功能部署物理专用设备的成本。由于服务链的复杂性和流量模式的动态变化,使得虚拟网络功能组件的伸缩优化问题成为网络功能虚拟化研究的主要挑战之一。采用强化学习可以有效地解决优化问题,因此,采用强化学习的虚拟网络功能组件伸缩优化研究成为业界的研究热点。深度强化学习通过函数近似的方式拟合智能体的动作值函数,可以解决智能体的状态和动作空间过大的问题。分层强化学习通过将任务进行分解,可以让智能体进行更结构化的探索。本文基于深度强化学习方法,针对面向移动无线接入网中的虚拟功能组件自动伸缩优化问题进行了研究,论文所做的主要研究工作和创新点包括以下方面:1.针对基于分层深度强化学习的虚拟功能组件伸缩优化关键技术进行了研究,分析了虚拟功能组件自动伸缩优化的研究进展。2.将虚拟功能组件的伸缩优化问题建模为一个以服务请求在虚拟网络功能(VNF)排队系统的平均等待时间、平均队长和VNF实例成本加权之和最小为优化目标的优化问题。考虑到组件的服务请求到达流量和拥塞引起的服务质量劣化问题,针对服务请求到达流量进行检测,提出了一种结合长短期神经网络(LSTM)、深度强化学习和选项(Option)的虚拟功能组件自动伸缩优化算法(VFC-AS-DLO),针对所提算法的性能进行了仿真评估,验证了所提算法的有效性。3.针对目前研究成果采用贪心策略导致智能体的动作空间搜索过大的问题,基于分层深度强化学习,提出了一种基于分层深度Q网络(H-DQN)的虚拟功能组件伸缩优化算法(VFC-AS-HDQN),仿真评估了所提算法的性能,与深度Q网络(DQN)算法相比,所提VFC-AS-HDQN算法在系统效用方面具有更好的性能。

关键词：网络功能虚拟化深度强化学习 LSTM 分层强化学习 H-DQN