咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >平均和折扣准则MDP基于TD(0)学习的统一NDP方法 收藏

平均和折扣准则MDP基于TD(0)学习的统一NDP方法

Unified NDP method based on TD(0) learning for both average and discounted Markov decision processes

作     者:唐昊 周雷 袁继彬 TANG Hao;ZHOU Lei;YUAN Ji-bin

作者机构:合肥工业大学计算机与信息学院安徽合肥230009 

出 版 物:《控制理论与应用》 (Control Theory & Applications)

年 卷 期:2006年第23卷第2期

页      面:292-296页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(60404009) 安徽省自然科学基金资助项目(050420303) 合肥工业大学中青年科技创新群体计划资助项目 

主  题:Markov决策过程 性能势 TD(0)学习 神经元动态规划 

摘      要:为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分