咨询与建议

限定检索结果

文献类型

  • 26 篇 期刊文献
  • 24 篇 学位论文
  • 7 篇 会议

馆藏范围

  • 57 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 54 篇 工学
    • 35 篇 计算机科学与技术...
    • 34 篇 控制科学与工程
    • 34 篇 软件工程
    • 15 篇 机械工程
    • 10 篇 仪器科学与技术
    • 6 篇 信息与通信工程
    • 5 篇 电子科学与技术(可...
    • 4 篇 交通运输工程
    • 4 篇 航空宇航科学与技...
    • 3 篇 材料科学与工程(可...
    • 2 篇 电气工程
    • 1 篇 动力工程及工程热...
    • 1 篇 石油与天然气工程
    • 1 篇 兵器科学与技术
    • 1 篇 生物医学工程(可授...
    • 1 篇 生物工程
    • 1 篇 公安技术
  • 31 篇 管理学
    • 31 篇 管理科学与工程(可...
    • 1 篇 工商管理
  • 9 篇 理学
    • 5 篇 数学
    • 3 篇 系统科学
    • 1 篇 物理学
  • 2 篇 艺术学
    • 1 篇 音乐与舞蹈学
    • 1 篇 设计学(可授艺术学...
  • 1 篇 哲学
    • 1 篇 哲学
  • 1 篇 经济学
    • 1 篇 应用经济学
  • 1 篇 教育学
    • 1 篇 教育学
  • 1 篇 医学
    • 1 篇 临床医学

主题

  • 57 篇 actor-critic
  • 22 篇 强化学习
  • 5 篇 reinforcement le...
  • 5 篇 深度强化学习
  • 5 篇 多智能体
  • 4 篇 深度学习
  • 3 篇 自适应pid控制
  • 3 篇 ddpg
  • 2 篇 稀疏奖励
  • 2 篇 径向基网络
  • 2 篇 策略梯度算法
  • 2 篇 经验分享
  • 2 篇 rnn
  • 2 篇 多尺度特征融合
  • 2 篇 目标跟踪
  • 2 篇 协作学习
  • 2 篇 神经网络
  • 2 篇 经验回放
  • 1 篇 decision-making
  • 1 篇 马尔可夫决策过程...

机构

  • 4 篇 中国矿业大学
  • 3 篇 哈尔滨工业大学
  • 2 篇 内蒙古师范大学
  • 2 篇 东南大学
  • 2 篇 南京理工大学
  • 2 篇 department of co...
  • 2 篇 沈阳理工大学
  • 2 篇 四川大学
  • 2 篇 江南大学
  • 1 篇 长安大学
  • 1 篇 state key labora...
  • 1 篇 北京交通大学
  • 1 篇 school of mechan...
  • 1 篇 university of ch...
  • 1 篇 国防科技大学
  • 1 篇 江苏大学
  • 1 篇 太原师范学院
  • 1 篇 武汉理工大学
  • 1 篇 department of co...
  • 1 篇 上海交通大学

作者

  • 2 篇 武军凯
  • 2 篇 韩慧
  • 2 篇 罗伟
  • 2 篇 wei hu
  • 2 篇 梁宸
  • 2 篇 茅正冲
  • 1 篇 rui wang
  • 1 篇 hongjun song
  • 1 篇 赵振根
  • 1 篇 侯棣元
  • 1 篇 张景异
  • 1 篇 yuanyuan gao
  • 1 篇 cui lili zhang h...
  • 1 篇 夏鹏辉
  • 1 篇 张杰
  • 1 篇 唐昊
  • 1 篇 jin xu
  • 1 篇 陈栋
  • 1 篇 冯云剑
  • 1 篇 金玉净

语言

  • 43 篇 中文
  • 14 篇 英文
检索条件"主题词=Actor-critic"
57 条 记 录,以下是1-10 订阅
排序:
基于不确定性估计的离线确定型actor-critic
收藏 引用
计算机学报 2024年 第4期47卷 717-732页
作者: 冯涣婷 程玉虎 王雪松 中国矿业大学信息与控制工程学院 江苏徐州221116 江苏信息职业技术学院智能工程学院 江苏无锡214153
actor-critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 同方期刊数据库 同方期刊数据库 评论
融合Dead-ends和离线监督actor-critic的动态治疗策略生成模型
收藏 引用
计算机科学 2024年 第7期51卷 80-88页
作者: 杨莎莎 于亚新 王跃茹 许晶铭 魏阳杰 李新华 东北大学计算机科学与工程学院 沈阳110169 医学影像智能计算教育部重点实验室(东北大学) 沈阳110169
强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于actor-critic自适应PID的钢筋套丝头跟踪检测控制系统研究
收藏 引用
工业控制计算机 2024年 第2期37卷 75-77页
作者: 秦天为 冯云剑 东南大学自动化学院 江苏南京210096
为适应流水线节奏,不影响生产进程,从而更好地实现钢筋套丝头质量检测和尺寸测量的自动化与智能化,设计了基于同步带直线导轨的钢筋套丝头检测跟踪系统,并提出了一种基于actor-critic的自适应PID控制方法,用强化学习的方法根据环境反馈... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
An actor-critic based learning method for decision-making and planning of autonomous vehicles
收藏 引用
Science China(Technological Sciences) 2021年 第5期64卷 984-994页
作者: XU Can ZHAO WanZhong CHEN QingYun WANG ChunYan Department of Vehicle Engineering Nanjing University of Aeronautics and AstronauticsNanjing 210016China
In order to improve the agility and applicability of trajectory planning algorithm for autonomous vehicles, this paper proposes a novel actor-critic based learning method for decision-making and planning in multi-vehi... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
A Sample-Efficient actor-critic Algorithm for Recommendation Diversification
收藏 引用
Chinese Journal of Electronics 2020年 第1期29卷 89-96页
作者: LI Shuang YAN Yanghui REN Ju ZHOU Yuezhi ZHANG Yaoxue Department of Computer Science and Technology Tsinghua University
Diversifying recommendation results gains benefits from satisfying user’s existing interests as well as exploring novel information needs. Recently proposed Monte-Carlo based reinforcement learning method suffers fro... 详细信息
来源: 同方期刊数据库 同方期刊数据库 评论
A Novel Heterogeneous actor-critic Algorithm with Recent Emphasizing Replay Memory
收藏 引用
International Journal of Automation and computing 2021年 第4期18卷 619-631页
作者: Bao Xi Rui Wang Ying-Hao Cai Tao Lu Shuo Wang State Key Laboratory of Management and Control for Complex Systems Institute of AutomationChinese Academy of SciencesBeijing 100190China University of Chinese Academy of Sciences Beijing 100049China Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of SciencesShanghai 200031China
Reinforcement learning(RL) algorithms have been demonstrated to solve a variety of continuous control tasks. However,the training efficiency and performance of such methods limit further applications. In this paper, w... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
Learning continuous coupled multi-controller coefficients based on actor-critic algorithm for lower-limb exoskeleton
收藏 引用
Science China(Information Sciences) 2021年 第5期64卷 230-232页
作者: Guangkui SONG Rui HUANG Hong CHENG Jing QIU Qiming CHENG Shuai FAN Center for Robotics University of Electronic Science and Technology of China School of Mechanical and Electrical Engineering University of Electronic Science and Technology of China
Dear editor,Human-powered lower exoskeletons are widely studied by academia and industry with regard to human locomotion and strength augmentation. Technological developments have boosted the use of machine learning t... 详细信息
来源: 同方期刊数据库 同方期刊数据库 评论
actor-critic框架下一种基于改进DDPG的多智能体强化学习算法
收藏 引用
控制与决策 2021年 第1期36卷 75-82页
作者: 陈亮 梁宸 张景异 刘韵婷 沈阳理工大学自动化与电气工程学院 沈阳110159
现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
移动边缘计算中基于actor-critic框架的任务卸载和资源分配算法研究
移动边缘计算中基于Actor-Critic框架的任务卸载和资源分配算法研...
收藏 引用
作者: 张杰 长安大学
学位级别:硕士
移动边缘计算(Mobile Edge Computing,MEC)作为一种新兴计算范式,通过将网络中的服务器边缘化部署使得云功能更靠近用户设备,为资源受限的设备处理计算密集型和时延敏感型任务提供新思路。然而,MEC中计算和通信资源的时变性、用户设备... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于批量递归最小二乘的自然actor-critic算法
收藏 引用
浙江大学学报(工学版) 2015年 第7期49卷 1335-1342页
作者: 王国芳 方舟 李平 浙江大学航空航天学院 浙江杭州310027
为了减轻actor-critic结构中智能体用最小二乘法估计自然梯度时的在线运算负担,提高运算实时性,提出新的学习算法:NAC-BRLS.该算法在critic中利用批量递归最小二乘法估计自然梯度,根据估计得到的梯度乐观地更新策略.批量递归最小二乘法... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论