基于随机方差减小方法的DDPG算法
Deep Deterministic Policy Gradient Algorithm Based on Stochastic Variance Reduction Method作者机构:苏州科技大学电子与信息工程学院江苏苏州215009 苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州215009 苏州科技大学苏州市移动网络技术与应用重点实验室江苏苏州215009 珠海米枣智能科技有限公司广东珠海519000 苏州科技大学苏州市虚拟现实智能交互与应用技术重点实验室江苏苏州215009
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2021年第57卷第19期
页 面:104-111页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61876217,61876121,61772357,61750110519,61772355,61702055,61672371) 江苏省重点研发计划项目(BE2017663)
主 题:深度强化学习 深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术
摘 要:针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。