检索结果-南通市图书馆

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

基于悲观扩散策略Q学习的机器人控制方法

电光与控制 2024年

作者：王洋张震宋婷婷任坤王迪青岛大学自动化学院山东省工业控制技术重点实验室青岛地铁集团有限公司运营分公司

针对离线多智能体强化学习中，智能体数量的增加显著加剧外推误差的累积，导致该误差呈现指数级增长的问题，文中提出了一种名为悲观扩散策略Q学习(Pessimistic Diffusion Policy Q-Learning， PDPQL)的离线多智能体强化学习算法。PDPQ... 详细信息

针对离线多智能体强化学习中，智能体数量的增加显著加剧外推误差的累积，导致该误差呈现指数级增长的问题，文中提出了一种名为悲观扩散策略Q学习(Pessimistic Diffusion Policy Q-Learning， PDPQL)的离线多智能体强化学习算法。PDPQL算法在多智能体版本的保守Q学习算法的基础上为策略评估中的每个智能体分配动态变化的悲观惩罚。在策略改进阶段，PDPQL算法使用扩散模型构建策略网络，并从中采样动作进行参数更新，提高了算法的数据利用效率和泛化能力。为了验证PDPQL算法的有效性，在多智能体粒子环境和机器人控制任务HalfCheetah上开展了对比实验。实验结果显示，相较于对比基线算法，PDPQL算法有效缓解了外推误差造成的影响，展现出更优秀的机器人控制效果。

关键词：强化学习离线强化学习 Q学习离线多智能体强化学习机器人控制双足机器人外推误差

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于离线强化学习的研究综述

无线电通信技术 2024年第5期50卷 831-842页

作者：陈锶奇耿婕汪云飞余伟驰赵佳宁王仕超重庆交通大学信息科学与工程学院重庆400074 天津大学胸科医院天津300072 天津大学智能与计算学部天津300072

离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展... 详细信息

离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。

关键词：强化学习离线强化学习自动决策外推误差

维普期刊数据库博看期刊

在线全文

学校读者我要写书评

暂无评论

离线逆向强化学习研究与应用

离线逆向强化学习研究与应用

作者：陈毛重庆大学

学位级别：硕士

逆向强化学习能够从专家的演示轨迹中重新构建出奖励函数,这解决了强化学习任务中奖励函数难以设计的问题。传统的逆向强化学习需要和环境交互进行训练,然而,在本文考虑的智能艾灸应用中,让机械手臂代替艾灸专家进行艾灸移动决策时,由... 详细信息

逆向强化学习能够从专家的演示轨迹中重新构建出奖励函数,这解决了强化学习任务中奖励函数难以设计的问题。传统的逆向强化学习需要和环境交互进行训练,然而,在本文考虑的智能艾灸应用中,让机械手臂代替艾灸专家进行艾灸移动决策时,由于策略的危险性而不能直接在环境中交互。为了解决这个问题,本文对离线逆向强化学习展开了研究,研究主要从以下三个方面进行:(1)针对最大间隔逆向强化学习推广到离线设置时,在固定数据集上直接使用异策略强化学习的方法会导致动作价值函数估计不准确的问题,本文提出了离线最大间隔逆向强化学习算法。该算法在求解离线条件下的马尔可夫决策过程时,通过加入对动作行为价值函数的限制条件来减小外推误差。实验结果表明,本文所提出的算法在多个模拟环境上取得了较好的表现,获得了更稳定的策略。(2)针对最大间隔离线逆向强化学习算法在优化奖励函数循环的内部还嵌套有强化学习过程,算法效率低的问题,本文研究了直接基于动作价值函数优化的算法,提出了可显式建模奖励函数概率分布的变分奖励模仿学习。该算法在贝叶斯逆向强化学习的基础上,用变分推断的方法近似奖励函数的后验分布。通过实验验证该算法提升了策略的有效性。(3)本文为了进一步验证所提出算法的可行性,将算法应用到一个现实的智能艾灸决策任务,把艾灸决策问题建模为马尔科夫决策模型,构建了示教数据集,在该数据集上验证基于最大间隔的离线逆向强化学习算法和基于直接优化的离线逆向强化学习算法,测试时分别得到了88.1%和87.6%的专家行为匹配率,均高于直接模仿学习。

关键词：离线逆向强化学习模仿学习外推误差变分推断智能艾灸

一种野战防空C~3I系统数学模型的初步探讨

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

火力与指挥控制 1988年第4期 22-32页

作者：马骥桥宋天锁

本模型包括,根据目标运动状态方程,用等概率椭圆检测目标航迹与测量点的相关性,从而建立航迹辨识的相关矩阵,求解这一矩阵,实现多目标航迹辨识;在目标威胁估计和目标穿越火力单位射击空域的时间估值准确的条件下,建立目标火力分配的威... 详细信息

本模型包括,根据目标运动状态方程,用等概率椭圆检测目标航迹与测量点的相关性,从而建立航迹辨识的相关矩阵,求解这一矩阵,实现多目标航迹辨识;在目标威胁估计和目标穿越火力单位射击空域的时间估值准确的条件下,建立目标火力分配的威胁服务综合矩阵,求解这一矩阵获得自动化指挥系统的辅助决策方案;在分析先验毁歼概率的基础上,找出对应航路点上的最佳开火时间函数t~*(H_iP_iV_k),根据这一函数估算开火时间的目标航路参数,供指挥员掌握开火时机。从目标输入到给出辅助决策一直到武器系统对目标射击,这样一个全过程的几个主要部分用数学模型描述了出来。

关键词：目标航迹作战单位火力点迹 C~3I 决策矩阵外推误差

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

有限差分和有限元的单方向外推

工程数学学报 1984年第2期 1-12页

作者：朱起定林群湘潭大学中国科学院

单方向外推的思想很容易说明白（参看[8][9]等）。以矩形区域为例,先有一个以（h,k）为步长的矩形网格域Sh ,h,继而分别在单方向进行加密得到了新网格域Sh/2,k和Sh,k/2,然后在这三种网格域上计算偏微分方程的近似解uh ,h,uh/2,k和uh,k/2... 详细信息

单方向外推的思想很容易说明白（参看[8][9]等）。以矩形区域为例,先有一个以（h,k）为步长的矩形网格域Sh ,h,继而分别在单方向进行加密得到了新网格域Sh/2,k和Sh,k/2,然后在这三种网格域上计算偏微分方程的近似解uh ,h,uh/2,k和uh,k/2,并将它们作外推后得到了新的近似解。

关键词：有限差分单方向双线性有限元五点差分格式外推误差矩形网格

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

基于双重限制Q学习的机器人控制方法

自动化与仪表 2024年第3期39卷 61-65页

作者：周维庆王飞赵德京青岛大学自动化学院青岛266071 山东省工业控制技术重点实验室青岛266071 山东潍坊烟草有限公司潍坊262400

离线强化学习凭借不需要智能体与环境交互即可训练出令人满意效果的优势,在近期得到了非常迅速的发展。为了缓解外推误差和离线强化学习算法过于保守的问题,文中提出了基于双重限制Q学习的离线强化学习算法DIQL,限制Q值网络对数据分布外... 详细信息

离线强化学习凭借不需要智能体与环境交互即可训练出令人满意效果的优势,在近期得到了非常迅速的发展。为了缓解外推误差和离线强化学习算法过于保守的问题,文中提出了基于双重限制Q学习的离线强化学习算法DIQL,限制Q值网络对数据分布外(out-of-distribution,OOD)动作估计值不应与经数据增强后的状态V估计值差距过大,限制策略产生的OOD动作距离数据集分布的均方差不应过大,在双重限制的前提下鼓励算法探索,当数据集质量较差的情况下仍能取得较好的效果。为了验证算法的有效性,特在双足六自由度机器人步态控制环境中进行实验,结果表明DIQL算法可以有效的处理OOD动作,缓解了外推误差和算法过于保守的问题。

关键词：离线强化学习 OOD Q学习外推误差双足机器人

维普期刊数据库

在线全文

学校读者我要写书评

暂无评论

两种实用自适应航迹滤波方法

火力与指挥控制 1989年第4期 29-32页

作者：许志刚谢立华王加存华东工学院

本文在给出检测机动目标的措施之后,介绍了两种实用的自适应航迹滤波方法,即双窗检修法和递推估计法。

关键词：外推误差新息目标机动航迹滤波目标状态程序状态