咨询与建议

限定检索结果

文献类型

  • 12 篇 期刊文献
  • 10 篇 学位论文

馆藏范围

  • 22 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 21 篇 工学
    • 11 篇 计算机科学与技术...
    • 10 篇 控制科学与工程
    • 9 篇 软件工程
    • 5 篇 机械工程
    • 5 篇 仪器科学与技术
    • 4 篇 交通运输工程
    • 3 篇 公安技术
    • 1 篇 电子科学与技术(可...
    • 1 篇 信息与通信工程
    • 1 篇 航空宇航科学与技...
  • 8 篇 管理学
    • 8 篇 管理科学与工程(可...
  • 4 篇 理学
    • 3 篇 数学
    • 2 篇 系统科学
    • 1 篇 统计学(可授理学、...
  • 1 篇 经济学
    • 1 篇 应用经济学
  • 1 篇 军事学
    • 1 篇 军事装备学

主题

  • 22 篇 回报函数
  • 5 篇 强化学习
  • 4 篇 深度强化学习
  • 2 篇 移动机器人
  • 2 篇 逆向增强学习
  • 2 篇 随机控制
  • 2 篇 自动驾驶
  • 2 篇 maddpg
  • 2 篇 学徒学习
  • 1 篇 q学习
  • 1 篇 数据集
  • 1 篇 深度增强学习
  • 1 篇 交通诱导系统
  • 1 篇 图像分割
  • 1 篇 最大化边际规划
  • 1 篇 单交叉口
  • 1 篇 交通信号控制
  • 1 篇 边际最大化
  • 1 篇 路径规划
  • 1 篇 集合

机构

  • 4 篇 吉林大学
  • 3 篇 国防科技大学
  • 2 篇 浙江大学
  • 1 篇 北京交通大学
  • 1 篇 北京信息工程学院
  • 1 篇 南京大学
  • 1 篇 天津工业大学
  • 1 篇 北京航空航天大学
  • 1 篇 华南理工大学
  • 1 篇 河北工业职业技术...
  • 1 篇 丽水学院
  • 1 篇 东北大学
  • 1 篇 上海卫星工程研究...
  • 1 篇 河北师范大学
  • 1 篇 哈尔滨理工大学
  • 1 篇 上海海洋大学
  • 1 篇 中国科学院研究生...
  • 1 篇 浙江理工大学
  • 1 篇 温州大学

作者

  • 2 篇 钱徽
  • 2 篇 朱淼良
  • 2 篇 杨朝
  • 2 篇 金卓军
  • 2 篇 陈沈轶
  • 1 篇 赵增荣
  • 1 篇 李大铭
  • 1 篇 张敏
  • 1 篇 刘向丽
  • 1 篇 戚潇明
  • 1 篇 许铜华
  • 1 篇 杨柳
  • 1 篇 杨庆芳
  • 1 篇 王子强
  • 1 篇 陈杰
  • 1 篇 吕红力
  • 1 篇 高雪芬
  • 1 篇 杨瑞成
  • 1 篇 刘坤会
  • 1 篇 钟睿

语言

  • 22 篇 中文
检索条件"主题词=回报函数"
22 条 记 录,以下是1-10 订阅
排序:
基于回报函数逼近的学徒学习综述
收藏 引用
华中科技大学学报(自然科学版) 2008年 第S1期36卷 288-290,294页
作者: 金卓军 钱徽 陈沈轶 朱淼良 浙江大学计算机科学与技术学院 浙江杭州310027
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
回报函数学习的学徒学习综述
收藏 引用
智能系统学报 2009年 第3期4卷 208-212页
作者: 金卓军 钱徽 陈沈轶 朱淼良 浙江大学计算机学院 浙江杭州310027
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于强化学习算法的公交信号优先策略
收藏 引用
东北大学学报(自然科学版) 2012年 第10期33卷 1513-1516页
作者: 舒波 李大铭 赵新良 东北大学工商管理学院 辽宁沈阳110819
综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于Q-学习算法的交通控制与诱导协同模式的在线选择
收藏 引用
吉林大学学报(工学版) 2010年 第5期40卷 1215-1219页
作者: 杨庆芳 杨朝 吉林大学汽车动态模拟国家重点实验室 长春130022 吉林大学交通学院 长春130022
采用Q-学习算法实现了交通控制与诱导协同模式的在线选择。首先,采用Q-学习算法训练多智能体,根据多智能体内部的推理得到不同交通状态下的最优协同模式,最终实现交通控制与交通诱导协同模式的在线选择与转换。仿真结果表明,本文提出的... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
带有分红过程的比例再保险最佳控制模型之推广
收藏 引用
山西大学学报(自然科学版) 2006年 第3期29卷 249-252页
作者: 刘向丽 满讲义 北京信息工程学院基础部 中国科学院研究生院管理学院
考虑一类带有分红过程的比例再保险模型,为推广其应用,将其费用函数进行了推广,利用随机分析中的最佳控制理论,求得其最佳控制策略及相应的最大回报函数.
来源: 同方期刊数据库 同方期刊数据库 评论
改进Q学习下3D打印机器人路径生成方法
收藏 引用
计算机仿真 2023年 第10期40卷 417-421页
作者: 洪涛清 高雪芬 丽水学院数计学院 浙江丽水323000 浙江理工大学理学院 浙江杭州310018
由于3D打印机器人每次从起点到终点的最优或次优路径不止一条,而且在移动过程中要进行避障,加大了路径规划难度。针对上述问题,提出一种基于改进Q学习的3D打印机器人路径生成方法。根据齐次变换原理和机器人的结构参数分析机器人运动学... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于强化学习的航天器姿态控制器设计
收藏 引用
上海航天(中英文) 2023年 第1期40卷 80-85页
作者: 张瑞卿 钟睿 徐毅 北京航空航天大学宇航学院 北京102206 上海卫星工程研究所 上海201109
航天器在轨执行某些任务时,其质量参数会发生未知变化,传统控制方法在这种情况下控制效果不佳。本文提出基于强化学习的航天器姿态控制器设计方法,该方法在姿态控制器训练过程中不需要对航天器进行动力学建模,不依赖航天器的质量参数。... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
考虑借贷过程的比例再保险最优控制模型
收藏 引用
北方交通大学学报 2003年 第6期27卷 59-62页
作者: 杨瑞成 刘坤会 北京交通大学理学院 北京100044
在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于改进DQN网络的滚动轴承故障诊断方法研究
基于改进DQN网络的滚动轴承故障诊断方法研究
收藏 引用
作者: 刘哲 哈尔滨理工大学
学位级别:硕士
滚动轴承被广泛应用在许多工业领域,要求机器在运行过程中具有较高的可靠性和安全性,因为故障导致的停机,可能会造成经济损失甚至灾难性事故。在实际运行中,滚动轴承“正常状态”样本与“故障状态”样本的数据分布不平衡,且模型识别准... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于RDC-Q学习算法的移动机器人路径规划
收藏 引用
计算机工程 2014年 第6期40卷 211-214页
作者: 王子强 武继刚 天津工业大学计算机科学与软件学院 天津300387
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论