咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >有样本重用的阶段性策略梯度深度强化学习 收藏

有样本重用的阶段性策略梯度深度强化学习

Deep Reinforcement Learning with Phasic Policy Gradient with Sample Reuse

作     者:李海亮 王莉 LI Hailiang;WANG Li

作者机构:太原理工大学大数据学院山西晋中030600 

出 版 物:《太原理工大学学报》 (Journal of Taiyuan University of Technology)

年 卷 期:2024年第55卷第4期

页      面:712-719页

学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金区域创新发展联合基金资助项目(U22A20167) 国家重点研发计划(2021YFB3300503) 

主  题:深度强化学习 阶段性策略梯度 样本重用 

摘      要:【目的】针对基于策略的深度强化学习算法中存在的样本不能重复利用、样本利用率低的问题,提出一种有样本重用的阶段性策略梯度算法(phasic policy gradient with sample reuse,SR-PPG).【方法】该算法在阶段性策略梯度算法(phasic policy gradient,PPG)的基础上引入离线数据,从而减小训练的时间成本,使模型能够快速收敛。在这项工作中,SR-PPG将理论上支持的在线策略算法的稳定性优势与离线策略算法的样本效率相结合,开发了适用于离线策略设置的策略改进保证,并将这些界限与阶段性策略梯度算法使用的剪裁机制联系起来。【结果】一系列理论和实验证明,该算法通过有效平衡稳定性和样本效率这两个相互竞争的目标,提供了更好的性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分