咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >ROCm平台半精度矩阵乘法的实现和优化 收藏

ROCm平台半精度矩阵乘法的实现和优化

Implementation and optimization of half-precision general matrix multiplication on ROCm platform

作     者:王雨薇 吉青 卜景德 高娅 赵红朋 WANG Yu-wei;JI Qing;BU Jing-de;GAO Ya;ZHAO Hong-peng

作者机构:郑州大学计算机与人工智能学院河南郑州450000 中国科学院理论物理研究所理论物理先进计算联合实验室北京100190 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2024年第45卷第8期

页      面:2313-2319页

学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划基金项目(2021YFB0300200) 

主  题:类GPU加速器 矩阵乘法 半精度 性能优化 算法实现 高性能计算 线性代数 

摘      要:为提升类GPU加速器上Transformer的性能,结合单精度矩阵乘法的优化经验,对作为Transformer计算核心的半精度矩阵乘法HGEMM的性能优化进行探索。使用汇编语言实现HGEMM核函数,通过瓶颈分析和指令流测试抓取小规模矩阵上HGEMM计算访存比小、处于带宽限制下的特点;通过提升类GPU占用率和优化带宽利用率,实现优化算法的HGEMM函数设计,取得较普通算法1.1-1.3倍加速比。实验结果表明,依据半精度数据格式特点,使用优化算法提升占用率和优化指令排布,能够提升HGEMM函数的计算访存比,实现小规模矩阵HGEMM函数的性能提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分