咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >深度神经网络动态分层梯度稀疏化及梯度合并优化方法 收藏

深度神经网络动态分层梯度稀疏化及梯度合并优化方法

A Dynamic Layer-Wise Gradient Sparsity and Gradient Merging Optimization Method for Deep Neural Networks

作     者:巨涛 康贺廷 刘帅 火久元 JU Tao;KANG Heting;LIU Shuai;HUO Jiuyuan

作者机构:兰州交通大学电子与信息工程学院兰州730070 

出 版 物:《西安交通大学学报》 (Journal of Xi'an Jiaotong University)

年 卷 期:2024年第58卷第9期

页      面:105-116页

核心收录:

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(61862037,62262038) 甘肃省科技计划资助项目(23CXGA0028) 

主  题:深度神经网络 分布式训练 同步数据并行 梯度压缩 层梯度合并 

摘      要:针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀疏优化方法,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。然后,提出了层梯度合并方法,利用动态规划算法对层梯度合并时的通信开销、稀疏化及层梯度计算时间进行权衡优化,求解出最佳的层梯度合并组合,并将多层小尺度梯度张量合并为一层通信,以降低分层梯度决策时引入的过高通信延迟开销。最后,将求解出的最佳层梯度合并组合应用于具体的训练迭代过程。实验结果表明:与已有方法相比,所提方法可在保证模型训练精度的同时大大降低通信开销,提升模型的训练速度;与未压缩方法相比,训练速度最大可提升1.99倍。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分