检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

回报函数学习的学徒学习综述

智能系统学报 2009年第3期4卷 208-212页

作者：金卓军钱徽陈沈轶朱淼良浙江大学计算机学院浙江杭州310027

通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学... 详细信息

通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题.

关键词：学徒学习回报函数逆向增强学习最大化边际规划

在线全文

学校读者我要写书评

暂无评论

基于强化学习算法的公交信号优先策略

东北大学学报（自然科学版） 2012年第10期33卷 1513-1516页

作者：舒波李大铭赵新良东北大学工商管理学院辽宁沈阳110819

综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先... 详细信息

综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先控制策略,从而使其具备了自学习的能力.基于Paramics的仿真实验表明,该算法能够在保障路口正常交通秩序的同时,显著提高公交车运行效率.

关键词：公交系统交通信号控制公交信号优先强化学习回报函数

基于Q-学习算法的交通控制与诱导协同模式的在线选择

在线全文

学校读者我要写书评

暂无评论

吉林大学学报（工学版） 2010年第5期40卷 1215-1219页

作者：杨庆芳杨朝吉林大学汽车动态模拟国家重点实验室长春130022 吉林大学交通学院长春130022

采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通状态下的最优协同模式,最终实现交通控制与交通诱导协同模式的在线选择与转换。仿真结果表明,本文提出的... 详细信息

采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通状态下的最优协同模式,最终实现交通控制与交通诱导协同模式的在线选择与转换。仿真结果表明,本文提出的基于Q-学习算法的协同模式选择方法在一般交通拥挤状态下具有较好的协同控制效果,对比离线式模式选择方法更能适应交通状态的不断变化,从而达到有效避免严重交通拥堵、改善路网性能的目的。

关键词：交通运输工程交通控制与诱导协同模式选择 Q-学习算法回报函数

带有分红过程的比例再保险最佳控制模型之推广

在线全文

学校读者我要写书评

暂无评论

山西大学学报(自然科学版) 2006年第3期29卷 249-252页

作者：刘向丽满讲义北京信息工程学院基础部中国科学院研究生院管理学院

考虑一类带有分红过程的比例再保险模型,为推广其应用,将其费用函数进行了推广,利用随机分析中的最佳控制理论,求得其最佳控制策略及相应的最大回报函数.

关键词：随机控制分红过程最佳控制策略回报函数

在线全文

同方期刊数据库

学校读者我要写书评

暂无评论

改进Q学习下3D打印机器人路径生成方法

计算机仿真 2023年第10期40卷 417-421页

作者：洪涛清高雪芬丽水学院数计学院浙江丽水323000 浙江理工大学理学院浙江杭州310018

由于3D打印机器人每次从起点到终点的最优或次优路径不止一条,而且在移动过程中要进行避障,加大了路径规划难度。针对上述问题,提出一种基于改进Q学习的3D打印机器人路径生成方法。根据齐次变换原理和机器人的结构参数分析机器人运动学... 详细信息

由于3D打印机器人每次从起点到终点的最优或次优路径不止一条,而且在移动过程中要进行避障,加大了路径规划难度。针对上述问题,提出一种基于改进Q学习的3D打印机器人路径生成方法。根据齐次变换原理和机器人的结构参数分析机器人运动学原理,计算3D打印机器人末端在世界坐标系的位姿,明确3D打印机器人各轴联动关系。将机器人内部的信息节点组成分布式导航网络,控制机器人做出独立导航决策,辅助机器人航向选择。利用改进的Q学习方法,将信息决策导航结果与机器人学习的最佳状态及动作匹配,利用回报函数和贪婪策略方法提高其学习率,实现3D打印机器人路径生成。实验结果表明,所提方法路径规划能力强,计算耗时短。

关键词：三维打印机器人规划运行路径导航决策回报函数贪婪策略方法

在线全文

学校读者我要写书评

暂无评论

基于强化学习的航天器姿态控制器设计

上海航天（中英文） 2023年第1期40卷 80-85页

作者：张瑞卿钟睿徐毅北京航空航天大学宇航学院北京102206 上海卫星工程研究所上海201109

航天器在轨执行某些任务时,其质量参数会发生未知变化,传统控制方法在这种情况下控制效果不佳。本文提出基于强化学习的航天器姿态控制器设计方法,该方法在姿态控制器训练过程中不需要对航天器进行动力学建模,不依赖航天器的质量参数。... 详细信息

航天器在轨执行某些任务时,其质量参数会发生未知变化,传统控制方法在这种情况下控制效果不佳。本文提出基于强化学习的航天器姿态控制器设计方法,该方法在姿态控制器训练过程中不需要对航天器进行动力学建模,不依赖航天器的质量参数。当质量参数发生较大未知变化时,训练好的控制器仍然可以保持较好的控制效果。仿真测试表明:使用基于强化学习方法训练的控制器确实具有良好的鲁棒性。此外,回报函数的设计会明显影响姿态控制器的训练,因此对不同的回报函数设计进行了研究。

关键词：航天器姿态控制鲁棒性强化学习神经网络回报函数

在线全文

学校读者我要写书评

暂无评论

考虑借贷过程的比例再保险最优控制模型

北方交通大学学报 2003年第6期27卷 59-62页

作者：杨瑞成刘坤会北京交通大学理学院北京100044

在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回... 详细信息

在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回报函数.

关键词：随机控制借贷过程布朗运动期望最优控制策略回报函数

基于改进DQN网络的滚动轴承故障诊断方法研究

在线全文

学校读者我要写书评

暂无评论

基于改进DQN网络的滚动轴承故障诊断方法研究

作者：刘哲哈尔滨理工大学

学位级别：硕士

滚动轴承被广泛应用在许多工业领域,要求机器在运行过程中具有较高的可靠性和安全性,因为故障导致的停机,可能会造成经济损失甚至灾难性事故。在实际运行中,滚动轴承“正常状态”样本与“故障状态”样本的数据分布不平衡,且模型识别准... 详细信息

滚动轴承被广泛应用在许多工业领域,要求机器在运行过程中具有较高的可靠性和安全性,因为故障导致的停机,可能会造成经济损失甚至灾难性事故。在实际运行中,滚动轴承“正常状态”样本与“故障状态”样本的数据分布不平衡,且模型识别准确率不高、泛化性不强。因此,研究不平衡下滚动轴承故障诊断方法,对处理实际的工业数据具有很强的应用价值和现实意义。传统的不平衡诊断算法在数据分布极度不平衡时表现欠佳,且不能适用于更普遍的不平衡场景。论文基于深度强化学习,从数据预处理和模型的改进方面入手,提出一种改进深度Q网络(Deep Q Network,DQN)的滚动轴承故障诊断方法,实现滚动轴承数据不平衡下的故障诊断。数据预处理方面,针对数据集样本较少的问题,提出用数据增强的方法增加样本集合;针对模型对原始一维振动信号数据不敏感的问题,提出通过短时傅里叶变换,将一维数据转化为二维图像数据,提高模型的故障诊断率。模型建立方面,将故障诊断模拟成深度强化学习中的顺序决策过程。针对原有DQN中回报函数针对性不足的问题,提出一种结合k-means和空间距离构建DQN网络中回报函数的方法:以不平衡比为基准,以k-means算法中样本到中心点的距离作为回报值的偏置,为训练集构建具有个性化的回报函数。针对原有DQN网络特征提取不足问题,提出通过深度残差收缩模块搭建DQN模型的网络部分,同时对输出层部分做了改进,提高了模型的稳定性和诊断准确率,并通过理论分析和多组对比实验深入研究数据不平衡和变负载问题。实验表明,改进的DQN模型可以很好地解决振动信号正常状态与故障状态的数据分布不平衡问题,且不平衡和变负载情况下的G-mean得分达到了0.982以上,表现优异。当数据极度不平衡时准确率达到97%～99%,部分达到100%,与传统的不平衡分类方法对比提高了5%～8%。

关键词：滚动轴承故障诊断不平衡深度Q网络回报函数

基于RDC-Q学习算法的移动机器人路径规划

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

计算机工程 2014年第6期40卷 211-214页

作者：王子强武继刚天津工业大学计算机科学与软件学院天津300387

传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚... 详细信息

传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。

关键词：路径规划移动机器人强化学习 Q学习算法回报函数学习效率