基于通用计算平台SM4-CTR算法并行实现与优化
Parallel Implementation and Optimization of SM4-CTR Algorithm Based on General Computing Platform作者机构:北京电子科技学院北京100070
出 版 物:《密码学报》 (Journal of Cryptologic Research)
年 卷 期:2022年第9卷第4期
页 面:663-676页
核心收录:
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:SM4算法 CTR模式 CUDA GPU加速 并行算法 通用计算机平台
摘 要:随着大数据、云计算、5G通信技术的迅速发展,数据传输安全问题日益凸显,密码算法的设计和高效实现变得尤为重要,能高速运行的国产密码算法已成为保护国家安全的关键.与此同时,原本只用于图像计算的硬件GPU,在编程模型CUDA发布后就成为通用的、普及化的算力资源.本文基于通用的计算机平台,提出了利用其本地GPU进行CTR工作模式下SM4算法高速加解密的并行实现和优化方案.实验表明,本文提出的SM4-CTR并行加解密方案能够有效提高SM4算法的运行效率,在通用的计算机平台上,能够达到40倍加速比,加解密速率达到了14.192 Gbps.实验中还分析了线程块划分对GPU并行加速效果的影响,最优线程块大小为128到512,且必须为32的整倍数.最后,基于本文实验的结果与其他团队的优化SM4方案进行对比,包括传统工作模式下利用CPU、GPU优化的方案和利用软件快速实现的方案,对比结果显示即便之前团队的方案运行的平台硬件条件好于本文实验环境,文中提出的方案运行速率依然能做到大幅领先.因此,本文方案在安全性、运算速率提高的同时适用平台也更加广泛,在实际生活中针对大数据和个人数据的安全保护中必将发挥巨大的作用.