咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >梯度裁剪下降算法的收敛性分析 收藏
梯度裁剪下降算法的收敛性分析

梯度裁剪下降算法的收敛性分析

作     者:吴德兵 

作者单位:浙江理工大学 

学位级别:硕士

导师姓名:沈益;程秀俊

授予年度:2022年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 

主      题:梯度下降 随机梯度下降 裁剪 强凸 光滑 

摘      要:随着机器学习和深度学习的快速发展,基于梯度下降算法的一系列优化算法得到了快速发展,梯度下降算法对于模型求解发挥着重要的作用,对于优化过程中出现的问题,众多学者提出了梯度下降算法的各种变体。当目标函数不可微时,Shor N Z等人提出了基于次梯度信息的迭代算法;针对梯度爆炸问题,Pascanu R等人提出了裁剪梯度下降算法;对于迭代过程陷于局部最优问题,Polyak B T等人引入了基于动量的梯度下降算法。优化问题在机器学习以及深度学习中有着重要应用。在进行理论分析时,假设函数是强凸的。如果函数为强凸函数且存在最小值,那么最小值是唯一的。强凸并不要求函数处处可微。函数非光滑时可用次梯度来替代梯度。强凸函数在梯度下降算法中保证了线性收敛速率。本文主要研究了裁剪梯度下降算法和裁剪随机梯度下降算法的收敛性,在分析收敛性时都是基于强凸的条件,并且引入了一种弱光滑条件(L,L)光滑,在(L,L)条件下,函数是局部Lipschitz的,因此几乎处处可微,引入这两个条件得到本文的主要结果,论文证明了裁剪梯度下降算法在固定步长下收敛是稳定的,选取变步长下是可以收敛于最优解的,裁剪随机梯度下降算法在固定步长下收敛结果是稳定的。本文通过多个实验模型验证了裁剪梯度下降是要比梯度下降收敛快。通过一些具体的函数实例也验证了在(L,L)和强凸下,裁剪收敛速度较快。最后验证了定理3.1中的部分结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分