咨询与建议

限定检索结果

文献类型

  • 58 篇 期刊文献
  • 10 篇 学位论文
  • 3 篇 会议

馆藏范围

  • 71 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 39 篇 工学
    • 29 篇 计算机科学与技术...
    • 26 篇 软件工程
    • 24 篇 控制科学与工程
    • 7 篇 机械工程
    • 4 篇 仪器科学与技术
    • 1 篇 电气工程
    • 1 篇 信息与通信工程
    • 1 篇 交通运输工程
    • 1 篇 城乡规划学
    • 1 篇 生物工程
    • 1 篇 网络空间安全
  • 25 篇 管理学
    • 25 篇 管理科学与工程(可...
  • 24 篇 教育学
    • 21 篇 教育学
    • 2 篇 心理学(可授教育学...
    • 1 篇 体育学
  • 7 篇 理学
    • 3 篇 数学
    • 3 篇 系统科学
    • 1 篇 物理学
    • 1 篇 科学技术史(分学科...
  • 4 篇 文学
    • 2 篇 中国语言文学
    • 2 篇 外国语言文学
  • 2 篇 法学
    • 2 篇 社会学
  • 1 篇 经济学
    • 1 篇 应用经济学
  • 1 篇 农学
    • 1 篇 作物学

主题

  • 71 篇 激励学习
  • 7 篇 markov决策过程
  • 6 篇 人工智能
  • 4 篇 学习兴趣
  • 4 篇 智能体
  • 4 篇 神经网络
  • 3 篇 部分可观测markov...
  • 3 篇 遗传算法
  • 3 篇 元胞自动机
  • 3 篇 路径规划
  • 3 篇 虚拟水流法
  • 3 篇 人工势场
  • 3 篇 学生
  • 3 篇 课堂教学
  • 3 篇 中国象棋
  • 3 篇 收敛性
  • 3 篇 遗忘算法
  • 3 篇 平均奖赏
  • 2 篇 启发式搜索
  • 2 篇 中学生

机构

  • 16 篇 长沙理工大学
  • 11 篇 长沙电力学院
  • 6 篇 长沙交通学院
  • 4 篇 上海大学
  • 2 篇 华中科技大学
  • 2 篇 湖南师范大学
  • 1 篇 天津行政学院
  • 1 篇 湖南公安高等专科...
  • 1 篇 临海市大田中学
  • 1 篇 山东省德州市德城...
  • 1 篇 昆山市民办珠江学...
  • 1 篇 淮阴县供电局
  • 1 篇 南京大学
  • 1 篇 江苏丰县套楼初级...
  • 1 篇 辽宁省北票市职教...
  • 1 篇 吉林农业科技学院
  • 1 篇 张家港市学术指导...
  • 1 篇 重庆大学
  • 1 篇 江苏沛县初级中学
  • 1 篇 深圳市龙岗区石芽...

作者

  • 19 篇 陈焕文
  • 12 篇 谢丽娟
  • 7 篇 殷苌茗
  • 6 篇 谢建平
  • 4 篇 付强
  • 4 篇 王汉兴
  • 2 篇 吴俊
  • 2 篇 胡斌
  • 2 篇 唐中勇
  • 2 篇 卓佳
  • 2 篇 王志明
  • 1 篇 惠波
  • 1 篇 万杰
  • 1 篇 盛维涛
  • 1 篇 李春南
  • 1 篇 徐灵燕
  • 1 篇 蔡琼
  • 1 篇 贲冲
  • 1 篇 张秉权
  • 1 篇 姜翔宇

语言

  • 67 篇 中文
  • 4 篇 英文
检索条件"主题词=激励学习"
71 条 记 录,以下是1-10 订阅
排序:
求解POMDP的动态合并激励学习算法
收藏 引用
计算机工程 2005年 第22期31卷 4-6,148页
作者: 殷苌茗 王汉兴 陈焕文 谢丽娟 上海大学理学院 上海200436 长沙理工大学计算机与通信工程学院 长沙410077
把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
激励学习的广义平均算法及其收敛性
收藏 引用
计算机工程与应用 2002年 第20期38卷 72-74,88页
作者: 殷苌茗 陈焕文 谢丽娟 长沙电力学院数学与计算机系 长沙410077
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
U-Clustering:基于效用聚类的激励学习算法
收藏 引用
计算机工程与应用 2005年 第26期41卷 37-42,74页
作者: 陈焕文 殷苌茗 谢丽娟 长沙理工大学计算机与通信工程学院
提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
风险敏感度激励学习的广义平均算法
收藏 引用
应用数学和力学 2007年 第3期28卷 369-378页
作者: 殷苌茗 王汉兴 赵飞 郭兴明 长沙理工大学计算机与通信工程学院 长沙410076 上海大学理学院数学系 上海200444
提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于动态规划方法的激励学习遗忘算法
收藏 引用
计算机工程与应用 2004年 第16期40卷 75-78,81页
作者: 殷苌茗 王汉兴 陈焕文 上海大学理学院 上海200436 长沙电力学院数学与计算机系 长沙410077
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
一类基于有效跟踪的广义平均奖赏激励学习算法
收藏 引用
计算机工程与应用 2002年 第1期38卷 65-68页
作者: 陈焕文 谢建平 长沙电力学院数学与计算机系 长沙410077 长沙交通学院网络中心 长沙410076
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于规划规则的激励学习偏差研究
收藏 引用
复旦学报(自然科学版) 2004年 第5期43卷 681-684页
作者: 汤九斌 高阳 陈世福 南京理工大学计算机系 南京210094 南京大学计算机软件新技术国家重点实验室 南京210093
在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于人工势场的激励学习问题研究
基于人工势场的激励学习问题研究
收藏 引用
作者: 刘泽文 长沙理工大学
学位级别:硕士
激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于激励学习算法的移动机器人避障规划研究
基于激励学习算法的移动机器人避障规划研究
收藏 引用
作者: 盛维涛 重庆大学
学位级别:硕士
随着机器人技术的发展,移动机器人以其较高的自主性、智能性和对外界环境的自适应性,在星球探测、军事侦察、医疗服务、深海及核工业等领域都得到了广泛的应用。因此研究具有避障功能的移动机器人及其在未知环境下的避障路径规划具有... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于激励学习的人机口语对话策略优化
基于激励学习的人机口语对话策略优化
收藏 引用
作者: 卓佳 长沙理工大学
学位级别:硕士
口语对话系统随着人工智能、认知科学、语言学等领域以及硬件条件的发展已越来越受到研究者们的关注,目前自然语言理解的发展也使得把人机对话系统应用到许多方面成为可能。口语对话系统必将改变人机之间的交互方式并最终改变人们的工... 详细信息
来源: 同方学位论文库 同方学位论文库 评论