咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献
  • 1 篇 学位论文

馆藏范围

  • 2 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 2 篇 工学
    • 1 篇 机械工程
    • 1 篇 控制科学与工程
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 2 篇 广义优势函数估计
  • 2 篇 强化学习
  • 1 篇 变分推理
  • 1 篇 近端策略梯度优化...
  • 1 篇 空战自主决策
  • 1 篇 复合奖励
  • 1 篇 双重观测

机构

  • 1 篇 中国科学院自动化...
  • 1 篇 吉林大学
  • 1 篇 华北电力大学

作者

  • 1 篇 齐红敏
  • 1 篇 易建强
  • 1 篇 周志明
  • 1 篇 钱殿伟
  • 1 篇 刘振
  • 1 篇 张棋

语言

  • 2 篇 中文
检索条件"主题词=广义优势函数估计"
2 条 记 录,以下是1-10 订阅
排序:
基于改进近端策略优化的空战自主决策研究
收藏 引用
系统仿真学报 2024年 第9期36卷 2208-2218页
作者: 钱殿伟 齐红敏 刘振 周志明 易建强 华北电力大学控制与计算机工程学院 北京102206 中国科学院自动化研究所 北京100190
针对传统强化学习在空战自主决策应用中信息冗余度高、收敛速度慢等问题,提出一种基于双重观测与复合奖励的近端策略优化空战自主决策算法。设计了以交互信息为主、个体特征信息为辅的双重观测信息,降低战场信息高度冗余对训练效率的影... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 博看期刊 同方期刊数据库 同方期刊数据库 评论
基于变分推理的策略梯度算法研究
基于变分推理的策略梯度算法研究
收藏 引用
作者: 张棋 吉林大学
学位级别:硕士
在如今的大数据时代,机器学习在人工智能各个领域得到了广泛应用,尤其是深度神经网络的日渐成熟。虽然机器学习以及深度学习直观易懂,但是需要大量的有精确标注的数据标签。这种数据标签囊括了精准概括的信息,甚至是有价值的专家知识,... 详细信息
来源: 同方学位论文库 同方学位论文库 评论