基于模糊近似的强化学习方法研究
作者单位:苏州大学
学位级别:硕士
导师姓名:刘全
授予年度:2014年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:强化学习 值函数近似 模糊推理 二型模糊逻辑 基函数细化
摘 要:强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何求解大规模状态或动作空间的问题。本文将模糊推理作为近似方法用于强化学习算法中,针对当前已有的基于模糊推理的强化学习算法的不足,提出几种改进的基于模糊推理和基函数优化的值函数近似算法: (1)针对传统的基于查询表或函数近似的Q值迭代算法在处理连续空间问题时收敛速度慢,且不能求解连续行为策略的问题,提出一种带有资格迹的基于双层模糊推理的时间差分算法(DFR-Sarsa(λ)),并从理论上分析其收敛性。算法的第一层推理使用模糊状态集合以计算连续动作,第二层推理使用模糊动作集合以计算Q值分量,最后结合两层推理计算连续动作空间中的Q值函数。 (2)针对传统的基于模糊推理的强化学习算法存在收敛性能不足和对噪音干扰缺乏鲁棒性的问题,提出一种基于区间型二型模糊状态划分的Sarsa(λ)算法(IT2FI-Sarsa(λ)),并从理论上分析其收敛性。模糊规则的前件部分使用新颖的椭圆形二型模糊隶属度函数来划分连续状态空间,且该隶属度函数可以使降型存在闭合解。通过二型模糊推理获得Q值函数后,使用梯度下降方法更新规则的后件参数。实验表明,IT2FI-Sarsa(λ)算法具有较好的收敛性能,且对噪声干扰有鲁棒性。 (3)针对当前强化学习方法在使用线性函数近似时,由于根据不准确先验知识设定基函数而造成的泛化性能不高的问题,提出一种带有自适应基函数的模糊值迭代算法(ABF-QI),并从理论上分析其收敛性。算法的基函数采用“自顶向下的自适应更新方式,首先根据初始设定的基函数计算Q值函数,其次根据性能评价准则选择需要细化的基函数,最后采用分层更新的方式调整基函数的个数和形状。