咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >深度学习中的自然梯度下降算法 收藏
深度学习中的自然梯度下降算法

深度学习中的自然梯度下降算法

作     者:刘小雷 

作者单位:天津大学 

学位级别:硕士

导师姓名:王勇

授予年度:2021年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 

主      题:自然梯度下降算法 深度学习 二阶优化方法 Fisher信息矩阵 

摘      要:在深度学习中,二阶优化方法可以加速模型的训练,但是对于有着海量参数的深度神经网络,二阶优化方法由于其巨大的存储和计算成本难以有效地被应用。因此,近些年的研究中提出了许多深度学习中的近似二阶优化算法。自然梯度下降算法也可以被看作是一种二阶优化方法,近几年其在深度学习中的应用引起了广泛关注,其中K-FAC算法提供了一种近似自然梯度的有效方法。与一阶优化算法相比,尽管K-FAC算法对自然梯度下降算法进行了合理近似,但其计算成本仍然很高,实际应用中不具有太大的优势。受K-FAC算法的启发,本文提出了两种新的近似自然梯度下降算法。首先,在K-FAC算法的基础上,结合在训练中逐渐增加逆矩阵的更新间隔,基于Fisher信息矩阵迹的变化判断是否更新矩阵,结合硬件优势进一步切分矩阵维度的思想,提出了基于迹的硬件驱动的面向层的自然梯度下降算法(THOR算法)。此外,受拟牛顿法的启发,通过对Fisher信息矩阵进行合理的低秩近似,进而利用Sherman-Morrison公式进行求逆运算,大大降低了逆矩阵的计算成本,提出了低秩近似的自然梯度下降算法(lr-NGD算法)。最后,在CIFAR-10、CIFAR-100和Image Net等常用数据集上进行了实验,实验结果表明,THOR算法和lr-NGD算法在保持和K-FAC算法类似训练效果的同时,减少了大量的训练时间,而且与一阶优化算法相比,在训练时间上仍具有较大的优势。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分