咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献

馆藏范围

  • 1 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 1 篇 工学
    • 1 篇 控制科学与工程
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 1 篇 q-学习
  • 1 篇 markow决策过程
  • 1 篇 人工智能
  • 1 篇 激励学习
  • 1 篇 收敛性
  • 1 篇 智能体
  • 1 篇 广义平均算法

机构

  • 1 篇 长沙电力学院

作者

  • 1 篇 陈焕文
  • 1 篇 谢丽娟
  • 1 篇 殷苌茗

语言

  • 1 篇 中文
检索条件"主题词=Markow决策过程"
1 条 记 录,以下是1-10 订阅
排序:
激励学习的广义平均算法及其收敛性
收藏 引用
计算机工程与应用 2002年 第20期38卷 72-74,88页
作者: 殷苌茗 陈焕文 谢丽娟 长沙电力学院数学与计算机系 长沙410077
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论