咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于回报函数逼近的学徒学习综述 收藏

基于回报函数逼近的学徒学习综述

Survey of apprenticeship learning based on reward function approximating

作     者:金卓军 钱徽 陈沈轶 朱淼良 

作者机构:浙江大学计算机科学与技术学院浙江杭州310027 

出 版 物:《华中科技大学学报(自然科学版)》 (Journal of Huazhong University of Science and Technology(Natural Science Edition))

年 卷 期:2008年第36卷第S1期

页      面:288-290,294页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:浙江省科技厅重大项目(2006c13096) 

主  题:学徒学习 回报函数 综述 逆向增强学习 边际最大化 

摘      要:回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分