咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于逐次超松弛技术的Double Speedy Q-Lear... 收藏

基于逐次超松弛技术的Double Speedy Q-Learning算法

Double Speedy Q-Learning Based on Successive Over Relaxation

作     者:周琴 罗飞 丁炜超 顾春华 郑帅 ZHOU Qin;LUO Fei;DING Wei-chao;GU Chun-hua;ZHENG Shuai

作者机构:华东理工大学信息科学与工程学院上海200237 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2022年第49卷第3期

页      面:239-245页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61472139) 上海汽车工业科技发展基金会产学研课题(1915) 

主  题:强化学习 Q-Learning 马尔可夫决策过程 逐次超松弛迭代法 自循环结构 

摘      要:Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行改进,提出了Double Speedy Q-Learning算法。但Double Speedy Q-Learning算法并未考虑随机环境中存在的自循环结构,即代理执行动作时,存在进入当前状态的概率,这将不利于代理在随机环境中学习,从而影响算法的收敛速度。针对Double Speedy Q-Learning中存在的自循环结构,利用逐次超松弛技术对Double Speedy Q-Learning算法的Bellman算子进行改进,提出基于逐次超松弛技术的Double Speedy Q-Learning算法(Double Speedy Q-Learning based on Successive Over Relaxation,DSQL-SOR),进一步提升了Double Speedy Q-Learning算法的收敛速度。通过数值实验将DSQL-SOR与其他算法的实际奖励和期望奖励之间的误差进行对比,实验结果表明,所提算法比现有主流的算法SQL的误差低0.6,比逐次超松弛算法GSQL低0.5,这表明DSQL-SOR算法的性能较其他算法更优。实验同时对DSQL-SOR算法的可拓展性进行测试,当状态空间从10增加到1000时,每次迭代的平均时间增长缓慢,始终维持在10^(-4)数量级上,表明DSQL-SOR的可拓展性较强。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分