检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

激励学习的广义平均算法及其收敛性

计算机工程与应用 2002年第20期38卷 72-74,88页

作者：殷苌茗陈焕文谢丽娟长沙电力学院数学与计算机系长沙410077

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲... 详细信息

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法。文章提出了一种新的算法,这个算法通过牺牲最优性来获取鲁棒性,重点给出了一组逼近算法和它们的收敛结果。利用广义平均算子来替代最优算子max(或min),对激励学习中的两类最重要的算法一动态规划算法和个学习算法一进行了研究,并讨论了它们的收敛性。其目的就是为了提高激励学习算法的鲁棒性。

关键词：激励学习广义平均算法收敛性 Markow决策过程 Q-学习智能体人工智能

U-Clustering:基于效用聚类的激励学习算法

在线全文

学校读者我要写书评

暂无评论

计算机工程与应用 2005年第26期41卷 37-42,74页

作者：陈焕文殷苌茗谢丽娟长沙理工大学计算机与通信工程学院

提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为... 详细信息

提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的状态空间树节点。通过对NewYorkDriving[2,13]的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。

关键词：激励学习效用聚类部分可观测Markov决策过程

在线全文

学校读者我要写书评

暂无评论

风险敏感度激励学习的广义平均算法

应用数学和力学 2007年第3期28卷 369-378页

作者：殷苌茗王汉兴赵飞郭兴明长沙理工大学计算机与通信工程学院长沙410076 上海大学理学院数学系上海200444

提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个... 详细信息

提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题.主要工作是给出了一组逼近算法和它们的收敛结果.利用广义平均算子来替代最优算子max(或min),对激励学习中的一类最重要的算法——动态规划算法——进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性.同时使用了更具一般性的风险敏感度性能评价体系,发现基于动态规划的学习算法中的一般结论在这种体系之下并不完全成立.

关键词：激励学习风险敏感度广义平均算法收敛性

在线全文

学校读者我要写书评

暂无评论

基于动态规划方法的激励学习遗忘算法

计算机工程与应用 2004年第16期40卷 75-78,81页

作者：殷苌茗王汉兴陈焕文上海大学理学院上海200436 长沙电力学院数学与计算机系长沙410077

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下... 详细信息

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下与策略相关的值函数学习算法。但由于Agent在学习的过程中,需要记忆全部的值函数,这个记忆容量随着状态空间的增加会变得非常巨大。文章提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。

关键词：激励学习 Markov决策过程动态规划值函数记忆遗忘算法

一类基于有效跟踪的广义平均奖赏激励学习算法

在线全文

学校读者我要写书评

暂无评论

计算机工程与应用 2002年第1期38卷 65-68页

作者：陈焕文谢建平长沙电力学院数学与计算机系长沙410077 长沙交通学院网络中心长沙410076

取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。

关键词：激励学习 Markov决策过程平均奖赏有效跟踪

在线全文

学校读者我要写书评

暂无评论

基于规划规则的激励学习偏差研究

复旦学报（自然科学版） 2004年第5期43卷 681-684页

作者：汤九斌高阳陈世福南京理工大学计算机系南京210094 南京大学计算机软件新技术国家重点实验室南京210093

在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满... 详细信息

在实际动态系统中,经典无启发知识的激励学习算法收敛非常慢,因此必须采用某种偏差技术加速激励学习的收敛速度.已有激励学习偏差算法,通常先验地给出启发知识,这与激励学习的思想相矛盾.通过在初次激励学习获得的策略知识中,先抽取满足条件的规划知识,然后将规划知识作为启发知识,进一步指导后继激励学习.实验结果显示这种学习技术能有效加快算法收敛速度,并适用于动态复杂环境.

关键词：激励学习算法显示收敛速度规则动态系统抽取知识学习技术实际

在线全文

学校读者我要写书评

暂无评论

基于人工势场的激励学习问题研究

基于人工势场的激励学习问题研究

作者：刘泽文长沙理工大学

学位级别：硕士

激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满... 详细信息

激励学习因具有较强的在线自适应性和对复杂系统的自学习能力,备受机器人导航研究者的关注。但其在连续状态和动作空间的泛化,局部环境的反应式控制,大状态空间和部分可观测环境定性导航等都存在着亟待解决的问题,且用传统的算法很难满意地解决这些问题。本文利用人工势场和激励学习的优点针对机器人在较大状态空间和部分可观测环境下的导航问题进行了研究。本文首先对激励学习研究现状,课题研究的背景和现实意义进行了综述性介绍,并分析了当前激励学习中两种比较成熟的方法,瞬时差分法和Q学习方法。其次,研究了人工势场中斥力势函数和引力势函数的选取,人工势场法的优缺点。然后重点研究了如何将激励学习模型转换成人工势场模型,即利用激励学习和人工势场的优点应用虚拟水流法如何构建一个具有记忆学习功能的激励势场模型。最后,用三个著名的网格世界问题对激励势场模型进行了测试,同时在较大状态空间中用Q学习和HQ学习等方法做了对比实验。实验结果表明:对较大状态空间和部分可观测环境新方法都能简洁有效地给出理想的解;与Q学习和HQ学习等方法相比激励势场模型更稳定有效。

关键词：激励学习人工势场路径规划移动机器人导航虚拟水流法

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于激励学习算法的移动机器人避障规划研究

基于激励学习算法的移动机器人避障规划研究

作者：盛维涛重庆大学

学位级别：硕士

随着机器人技术的发展，移动机器人以其较高的自主性、智能性和对外界环境的自适应性，在星球探测、军事侦察、医疗服务、深海及核工业等领域都得到了广泛的应用。因此研究具有避障功能的移动机器人及其在未知环境下的避障路径规划具有... 详细信息

随着机器人技术的发展，移动机器人以其较高的自主性、智能性和对外界环境的自适应性，在星球探测、军事侦察、医疗服务、深海及核工业等领域都得到了广泛的应用。因此研究具有避障功能的移动机器人及其在未知环境下的避障路径规划具有重要的理论和现实意义。近年来，在诸多机器人避障方法中，激励学习因其不需要监督和先验知识且具有自学习的能力，逐渐应用到未知环境下移动机器人避障规划的研究中。然而在复杂连续环境下Q学习系统面临“维数灾难”问题，需要采取量化的方法来降低输入空间的复杂度，而径向基神经网络(RBFNN)具有较强的函数逼近能力及泛化能力，由此论文提出了基于RBF神经网络的Q学习方法并将其应用于单移动机器人的自主避障，使Q学习系统具有良好的泛化能力。本文从三个方面对Q学习算法进行了改进。1、引入RBF神经网络，采用动态聚类法离线训练样本集，确定隐含层的中心和宽度参数j。2、采用最小均方算法更新隐含层到输出层的权值Wm i。3、采用一个简单的三层RBF神经网络去逼近Q (s,a)值，将所有的输入向量量化到[0,1]之间。验证结果显示，与传统Q学习相比，基于RBF神经网络的Q学习避障方法可以增加自主移动机器人对环境的适应性，提高避碰能力，加速避障学习过程，从而提高移动机器人对未知环境的适应能力。

关键词：避障规划激励学习维数灾难径向基神经网络

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于激励学习的人机口语对话策略优化

基于激励学习的人机口语对话策略优化

作者：卓佳长沙理工大学

学位级别：硕士

口语对话系统随着人工智能、认知科学、语言学等领域以及硬件条件的发展已越来越受到研究者们的关注，目前自然语言理解的发展也使得把人机对话系统应用到许多方面成为可能。口语对话系统必将改变人机之间的交互方式并最终改变人们的工... 详细信息

口语对话系统随着人工智能、认知科学、语言学等领域以及硬件条件的发展已越来越受到研究者们的关注，目前自然语言理解的发展也使得把人机对话系统应用到许多方面成为可能。口语对话系统必将改变人机之间的交互方式并最终改变人们的工作、学习和生活。激励学习(Reinforcement Learning)是具有自学习特点的一个机器学习的重要分支。激励学习把学习看成是一个反复试错的过程，从而把环境状态映射到相应的动作。它能很好地解决智能体在随机状态环境下寻找最优动作的问题。本文把激励学习用于口语对话系统，对Walker和Singh的口语对话系统模型进行了改进，建立了一种适应面更广的新的口语对话系统模型RL-SDS(Reinforcement Learning-Spoken Dialogue System)，该模型被分别用于机房查询系统和大学生心理咨询系统两个口语对话环境中。同时，在机房查询系统的口语对话环境中对RL-SDS模型和Singh提出的模型进行了比较，在Walker和Singh的模型无法处理的大学生心理咨询系统的口语对话环境中，本文对RL-SDS模型也进行了一个激励学习效果的分析。

关键词：口语对话系统激励学习智能体 RL-SDS模型