咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >风险敏感度激励学习的广义平均算法 收藏

风险敏感度激励学习的广义平均算法

Risk-Sensitive Reinforcement Learning Algorithms With Generalized Average Criterion

作     者:殷苌茗 王汉兴 赵飞 郭兴明 YIN Chang-ming;WHANG Han-xing;ZHAO Fei

作者机构:长沙理工大学计算机与通信工程学院长沙410076 上海大学理学院数学系上海200444 

出 版 物:《应用数学和力学》 (Applied Mathematics and Mechanics)

年 卷 期:2007年第28卷第3期

页      面:369-378页

核心收录:

学科分类:12[管理学] 07[理学] 08[工学] 070105[理学-运筹学与控制论] 071101[理学-系统理论] 0711[理学-系统科学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 081101[工学-控制理论与控制工程] 0701[理学-数学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(10471088 60572126) 

主  题:激励学习 风险敏感度 广义平均 算法 收敛性 

摘      要:提出了一种新的算法.这个算法通过潜在地牺牲控制策略的最优性来获取其鲁棒性.这是因为,如果在理论模型与实际的物理系统之间存在不匹配,或者实际系统是非静态的,或者控制动作的可使用性随时间的变化而变化时,那么鲁棒性就可能成为一个十分重要的问题.主要工作是给出了一组逼近算法和它们的收敛结果.利用广义平均算子来替代最优算子max(或min),对激励学习中的一类最重要的算法——动态规划算法——进行了研究,并讨论了它们的收敛性,目的就是为了提高激励学习算法的鲁棒性.同时使用了更具一般性的风险敏感度性能评价体系,发现基于动态规划的学习算法中的一般结论在这种体系之下并不完全成立.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分