异构平台上性能自适应FFT框架
An Automatic Performance Tuning Framework for FFT on Heterogenous Platforms作者机构:并行软件与计算科学实验室(中国科学院软件研究所)北京100190 中国科学院大学北京100049 计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2014年第51卷第3期
页 面:637-649页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61221062) 国家"八六三"高技术研究发展计划基金项目(2012AA010902 2012AA010903) 中国科学院研究生科技创新与社会实践资助专项基金项目(11000GBF01)
主 题:快速傅里叶变换 自适应性能优化 加速处理器 图形处理器 异构
摘 要:快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT,MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明:MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28.