平均和折扣准则MDP基于TD(0)学习的统一NDP方法
Unified NDP method based on TD(0) learning for both average and discounted Markov decision processes作者机构:合肥工业大学计算机与信息学院安徽合肥230009
出 版 物:《控制理论与应用》 (Control Theory & Applications)
年 卷 期:2006年第23卷第2期
页 面:292-296页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(60404009) 安徽省自然科学基金资助项目(050420303) 合肥工业大学中青年科技创新群体计划资助项目
主 题:Markov决策过程 性能势 TD(0)学习 神经元动态规划
摘 要:为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.