CPU+GPU异构并行的矩阵转置算法研究
Research on matrix transpose algorithm of CPU+GPU heterogeneous parallelism作者机构:郑州师范学院信息科学与技术学院河南郑州450044 郑州大学信息工程学院河南郑州450001 山东理工大学建筑工程学院山东淄博255000
出 版 物:《东北师大学报(自然科学版)》 (Journal of Northeast Normal University(Natural Science Edition))
年 卷 期:2019年第51卷第4期
页 面:70-77页
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(61572444,61250007,41601496,41701525) 山东省自然科学基金资助项目(ZR2017LD002)
摘 要:针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.