咨询与建议

限定检索结果

文献类型

  • 84 篇 学位论文
  • 82 篇 期刊文献
  • 3 篇 会议

馆藏范围

  • 169 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 167 篇 工学
    • 120 篇 计算机科学与技术...
    • 119 篇 控制科学与工程
    • 116 篇 软件工程
    • 42 篇 机械工程
    • 34 篇 仪器科学与技术
    • 12 篇 信息与通信工程
    • 11 篇 电子科学与技术(可...
    • 10 篇 交通运输工程
    • 6 篇 航空宇航科学与技...
    • 6 篇 兵器科学与技术
    • 5 篇 电气工程
    • 3 篇 船舶与海洋工程
    • 2 篇 公安技术
    • 1 篇 动力工程及工程热...
    • 1 篇 测绘科学与技术
    • 1 篇 地质资源与地质工...
    • 1 篇 生物医学工程(可授...
    • 1 篇 生物工程
  • 113 篇 管理学
    • 113 篇 管理科学与工程(可...
    • 2 篇 工商管理
    • 2 篇 公共管理
  • 7 篇 军事学
    • 4 篇 军队指挥学
    • 3 篇 战术学
    • 3 篇 军事装备学
  • 6 篇 理学
    • 3 篇 系统科学
    • 2 篇 数学
    • 1 篇 地理学
  • 2 篇 经济学
    • 2 篇 应用经济学
  • 2 篇 艺术学
    • 2 篇 设计学(可授艺术学...
  • 1 篇 教育学
    • 1 篇 教育学
  • 1 篇 医学

主题

  • 169 篇 分层强化学习
  • 28 篇 强化学习
  • 26 篇 深度强化学习
  • 17 篇 option
  • 15 篇 路径规划
  • 8 篇 自动分层
  • 8 篇 子目标
  • 8 篇 多智能体强化学习
  • 7 篇 人工智能
  • 6 篇 稀疏奖励
  • 6 篇 多智能体系统
  • 4 篇 马尔可夫决策过程
  • 4 篇 maxq
  • 4 篇 机器学习
  • 3 篇 机械臂
  • 3 篇 soft actor-criti...
  • 3 篇 移动机器人
  • 3 篇 免疫聚类
  • 3 篇 值函数分解
  • 3 篇 互信息

机构

  • 20 篇 哈尔滨工程大学
  • 12 篇 苏州大学
  • 7 篇 吉林大学
  • 7 篇 北京邮电大学
  • 6 篇 电子科技大学
  • 5 篇 华南理工大学
  • 5 篇 陆军工程大学
  • 5 篇 太原理工大学
  • 4 篇 北京交通大学
  • 4 篇 长沙理工大学
  • 3 篇 东南大学
  • 3 篇 国防科技大学
  • 3 篇 南京大学
  • 3 篇 南京邮电大学
  • 3 篇 广东石油化工学院
  • 3 篇 茂名学院
  • 3 篇 哈尔滨工业大学
  • 2 篇 华中科技大学
  • 2 篇 兰州理工大学
  • 2 篇 贵州师范大学

作者

  • 11 篇 刘海波
  • 11 篇 顾国昌
  • 11 篇 沈晶
  • 5 篇 刘全
  • 4 篇 程晓北
  • 4 篇 彭志平
  • 3 篇 曹雷
  • 3 篇 徐亚鹏
  • 2 篇 刘元归
  • 2 篇 闫其粹
  • 2 篇 赖俊
  • 2 篇 程晓明
  • 2 篇 柯文德
  • 2 篇 李绍平
  • 2 篇 伏玉琛
  • 2 篇 付成伟
  • 2 篇 王奇
  • 2 篇 王本年
  • 2 篇 禹春梅
  • 2 篇 张汝波

语言

  • 169 篇 中文
检索条件"主题词=分层强化学习"
169 条 记 录,以下是91-100 订阅
排序:
基于脉冲神经网络的指挥智能体技术
收藏 引用
火力与指挥控制 2024年 第5期49卷 36-43,51页
作者: 王栋 赵彦东 陈希飞 北方自动控制技术研究所 太原030006
针对现有智能体技术应用于军事指挥控制领域中时存在计算资源需求高、奖励值稀疏、收敛速度慢、推理效果差的问题,提出了一种基于脉冲神经网络(spiking neural network,SNN)和分层强化学习的指挥智能体技术。基于分层强化学习思想对军... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于符号知识的选项发现方法
收藏 引用
计算机科学 2024年
作者: 王麒迪 沈立炜 吴天一 复旦大学计算机科学技术学院
基于选项(option)的层次化策略学习分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从... 详细信息
来源: 同方期刊数据库 同方期刊数据库 评论
基于互信息优化的Option-Critic算法
收藏 引用
计算机科学 2024年 第2期51卷 252-258页
作者: 栗军伟 刘全 徐亚鹏 苏州大学计算机科学与技术学院 江苏苏州215006 软件新技术与产业化协同创新中心 南京210000 吉林大学符号计算与知识工程教育部重点实验室 长春130012 苏州大学江苏省计算机信息处理技术重点实验室 江苏苏州215006
时序抽象作为分层强化学习的重要研究内容,允许分层强化学习智能体在不同的时间尺度上学习策略,可以有效解决深度强化学习难以处理的稀疏奖励问题。如何端到端地学习到优秀的时序抽象策略一直是分层强化学习研究面临的挑战。Option-Crit... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
强化学习及其在机器人任务规划中的进展与分析
收藏 引用
模式识别与人工智能 2023年 第10期36卷 902-917页
作者: 张晓明 高士杰 姚昌瑀 褚誉 彭硕 安徽大学物质科学与信息技术研究院 合肥230601
强化学习可以让机器人通过与环境的交互,学习最优的行动策略,是目前机器人领域关注的重要前沿方向之一.文中简述机器人任务规划问题的形式化建模,分析强化学习的主要方法,分别介绍无模型强化学习、基于模型的强化学习分层强化学习的... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
海空跨域协同兵棋AI架构设计及关键技术分析
收藏 引用
指挥控制与仿真 2024年 第2期46卷 35-43页
作者: 苏炯铭 罗俊仁 陈少飞 项凤涛 国防科技大学智能科学学院 湖南长沙410073
以深度强化学习为核心的智能博弈技术在游戏领域内的突破和进展为海空兵棋AI的研究提供了借鉴。智能体架构设计是需要解决的关键问题,良好的架构能够降低算法训练的复杂度和难度,加快策略收敛。提出基于随机博弈的海空跨域协同决策博弈... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于智慧客服系统的改进MaxQ算法模型研究
基于智慧客服系统的改进MaxQ算法模型研究
收藏 引用
2023电力行业信息化年会
作者: 张益兵 朱朝勇 袁亮 张丽雅
目前智慧客服系统机器人问答技术通过分词、词性标注、生成词向量、相似度计算等较常规的方式实现,自我学习、客户意图理解等能力较差,强化学习是提升机器人自我学习能力的好方法,故引入强化学习算法。但在强化学习的过程中,状态空间往... 详细信息
来源: cnki会议 评论
考虑威胁区通行概率的变体飞行器轨迹规划
收藏 引用
航天控制 2024年 第2期42卷 35-41页
作者: 王翰桐 禹春梅 程晓明 北京航天自动控制研究所 北京100854
针对威胁区交叉重叠且全覆盖飞行路径的变体飞行器轨迹规划问题,提出了一种考虑威胁区通行概率和变外形参数优化的轨迹规划方法。基于分层强化学习思想,通过设置飞行环境集合、决策选项、代价函数、Q函数以及选项内的策略等,建立了变体... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
强化学习算法在超视距空战辅助决策上的应用研究
收藏 引用
航空兵器 2021年 第2期28卷 55-61页
作者: 吴宜珈 赖俊 陈希亮 曹雷 徐鹏 陆军工程大学 南京210000 中国人民解放军32526部队 江苏无锡214000 中国人民解放军31102部队 南京210000
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
空天地网络中基于强化学习的通信计算与缓存技术研究
空天地网络中基于强化学习的通信计算与缓存技术研究
收藏 引用
作者: 陈梦婷 北京邮电大学
学位级别:硕士
为了满足迸发的通信需求,实现未来6G“万物互联”的愿景,空基、天基与地基网络呈现出一体化的趋势。与传统的通信网络系统对比,在整合了卫星、高空平台、无人机与地面网络后,空天地一体化网络(Space-air-earth networks/Space-air-terre... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
移动无线接入网中基于深度强化学习的虚拟功能组件伸缩优化
移动无线接入网中基于深度强化学习的虚拟功能组件伸缩优化
收藏 引用
作者: 欧阳文江 北京邮电大学
学位级别:硕士
网络功能虚拟化技术能够降低电信服务提供商为给定服务的每个功能部署物理专用设备的成本。由于服务链的复杂性和流量模式的动态变化,使得虚拟网络功能组件的伸缩优化问题成为网络功能虚拟化研究的主要挑战之一。采用强化学习可以有效... 详细信息
来源: 同方学位论文库 同方学位论文库 评论