咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >降低分布式训练通信的梯度稀疏压缩方法 收藏

降低分布式训练通信的梯度稀疏压缩方法

Gradient sparsification compression approach to reducing communication in distributed training

作     者:陈世达 刘强 韩亮 CHEN Shi-da;LIU Qiang;HAN Liang

作者机构:天津大学微电子学院天津300072 天津市成像与感知微电子技术重点实验室天津300072 阿里巴巴集团美国加利福尼亚州森尼韦尔94085 

出 版 物:《浙江大学学报(工学版)》 (Journal of Zhejiang University:Engineering Science)

年 卷 期:2021年第55卷第2期

页      面:386-394页

核心收录:

学科分类:0810[工学-信息与通信工程] 08[工学] 081104[工学-模式识别与智能系统] 0805[工学-材料科学与工程(可授工学、理学学位)] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(61974102) 阿里巴巴创新研究项目。 

主  题:深度神经网络 分布式训练 残差梯度压缩 top-k阈值 分布估计 二分搜索 

摘      要:针对现有的梯度稀疏压缩技术在实际应用中面临时间开销大的问题,基于分布式训练中残差梯度压缩算法提出低复杂度、能快速选取top-k稀疏梯度通信集的方法.采用Wasserstein距离确定梯度分布特征符合Laplacian分布;利用Laplacian分布曲线面积关系确定关键点,并通过最大似然估计简化特征参数;估计稀疏梯度top-k阈值,并结合二分搜索对阈值修正.该方法避免了现有随机抽样方法的不稳定性和数据排序之类的复杂操作.为了评估所提方法的有效性,在图形处理器(GPU)平台采用CIFAR-10和CIFAR-100数据集对图像分类深度神经网络进行训练.结果显示,与radixSelect和层级选择方法相比,在达到相同训练精度的情况下,本研究方法最高分别实现了1.62、1.30倍的加速.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分