咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向边缘端侧的可重构卷积神经网络专用处理器结构研究 收藏
面向边缘端侧的可重构卷积神经网络专用处理器结构研究

面向边缘端侧的可重构卷积神经网络专用处理器结构研究

作     者:陈億 

作者单位:战略支援部队信息工程大学 

学位级别:硕士

导师姓名:李伟

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:卷积神经网络 硬件加速器 动态可重构 指令处理器 并行计算 

摘      要:在人工智能技术席卷全球的浪潮下,人工智能的井喷式发展推动了全球产业链的变革,成为了推动人类社会进入智能化时代的中坚力量,也是人们日常生活中不可或缺的一部分。在计算机视觉领域,卷积神经网络(Convolutional NeuralNetworks,CNN)以其卓越的识别准确率被广泛应用于人脸识别,目标检测,自动驾驶等任务中,然而当前常用的CNN模型参数量和计算量庞大,且具有计算密集和存储密集的典型特征,在算力和功耗受限的边缘终端设备中部署CNN模型时难度大,计算性能低,难以满足实时性的需求。因此论文以设计一款可重构CNN专用处理器为目标,为边缘终端设备提供灵活、高效的计算,主要研究内容如下: 首先,针对传统CNN加速器中采用固定PE阵列实现形式导致计算灵活性受限,无法同时高效重构以VGG-16为典型代表的单计算任务和以Inception结构为典型代表的多计算任务的问题,论文提出了一种高度灵活、动态可重构的CNN专用处理器架构。结合两级分布式存储方案和按通道处理的数据流模式,该架构能够有效降低片外访存的频率,并避免相邻PE间复杂的数据传播机制,提升了PE单元的利用率;提出的灵活高效的工作模式使得该架构能够有效重构计算VGG-16、MobileNet-V1等典型的单计算任务和Inception结构的多计算任务,满足了不同应用场景下的需求。 其次,针对CNN算子的高效实现,并能保持较高的PE利用率,论文提出了一种灵活高效的本地访存机制和片外访存机制。通过将从本地缓存中读取的数据广播到PE单元中进行计算的方式,避免了PE阵列中复杂的数据互连传播机制,能够灵活实现任意规格的常规卷积、深度可分离卷积、池化和全连接运算。为了解决片外的串行访存所带来的性能损失问题,论文设计了专用的DMA硬件结构和权重乒乓缓存机制,以匹配可重构CNN专用处理器中私有存储器带宽与总线带宽,有效提升了硬件架构的总体计算性能。 最后,论文结合指令多发射与乱序执行的技术,设计了CNN专用指令,并提出了一种指令并发的控制调度机制。基于论文提出的控制调度机制,CNN专用处理器能够隐藏PE阵列配置的时延开销,实现运算与访存的并发执行,在CNN专用处理器进行本轮计算的同时进行下一轮运算参数的预加载,能够有效解决了访存时延所导致的性能损失问题。 论文提出的动态可重构CNN专用处理器包含256个PE运算单元和148 k B的片上私有存储器,基于55 nm TT Corner(25℃,1.2 V)的CMOS工艺下进行逻辑综合和布局布线,最高时钟频率能够达到309 MHz,逻辑综合等效门数为2701 KGE;基于Xilinx ZCU106 FPGA开发平台进行实现,在200 MHz的工作频率下,完成VGG-16,MobileNetV1和Goog LeNet网络模型的DSP效率分别为450 MOPs/DSP,425 MOPs/DSP和410MOPs/DSP,能效分别为44.2 GOPs/W、44.4 GOPs/W和38.0 GOPs/W。 综上,论文提出的可重构CNN专用处理器能够在边缘智能应用场景下,满足资源和功耗受限的终端设备对CNN处理的能效和性能需求。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分