面向生成式神经网络的高能效可重构加速器关键技术研究
作者单位:清华大学
学位级别:硕士
导师姓名:尹首一
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近年来,人工神经网络技术在各类场景中发挥着重要的作用,它被广泛用于计算机视觉、语音识别、自动驾驶等领域。其中生成式神经网络是一种由卷积、反卷积、残差模块组成的神经网络。它在计算机视觉领域,如图像超分辨处理、风格迁移等任务中起到关键作用。智能化应用要求计算设备具备高性能、强实时性、低功耗的信息处理能力。传统神经网络加速器往往研究如何高效执行卷积,但在执行反卷积和残差结构时,却有着很低的硬件资源利用率。本文以提高加速器的能效为主要目标,结合运算本身的特点,提出了一套硬件加速器架构和神经网络映射、调度技术方案。本论文的主要内容如下:1.提出可重构精度自适应处理单元及片上缓存带宽。分析了神经网络模型被定点化压缩算法处理后,各层数据位宽不同的特性。针对传统并行乘法器硬件资源利用率不高的问题,提出可重构处理单元方案。该方案下,硬件可执行多比特计算任务,且在不同计算精度模式时,并行计算能力不同。提出可重构片上带宽的方案,带宽随不同计算模式变化,有效匹配了计算力。针对风格迁移、超分辨等生成网络任务,进行压缩处理,探究数据精度、性能和网络识别率三者的关系。2.分析生成式网络模型的计算特性,揭示了卷积与反卷积运算对偶的特性。针对处理单元负载不均衡的问题,探究计算任务映射到片上运算阵列的过程,面向反卷积操作,提出输入数据导向的映射方式IOM;面向卷积操作,提出输出数据导向的映射方式OOM。充分考虑了计算模式、数据复用技术以及各个模块间协同配合,与传统的卷积映射方案相比,可以有效地提高硬件资源利用率,并且提升架构的并行计算能力。3.根据残差运算模块计算访存比低的特性,针对传统的逐层计算模式访存功耗大、计算效率低的问题,提出跨层数据流调度方案。充分考虑残差结构中的级联关系,提出混合层计算的方式,有效减少执行残差结构时的片外访存,且使得点加操作与卷积层操作并行执行,提高了加速器并行计算的能力。本文的GNA加速器在200MHz工作频率下,平均功耗142m W,实现409.6GOPS的计算力。它支持8比特、16比特等混合精度运算,面向生成式神经网络任务达到2.05TOPS/W的能效,满足了神经网络对硬件加速器的低功耗、高性能、高灵活性的需求。