咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向向量加速器的YOLO网络映射与优化 收藏
面向向量加速器的YOLO网络映射与优化

面向向量加速器的YOLO网络映射与优化

作     者:赵悦恺 

作者单位:国防科技大学 

学位级别:硕士

导师姓名:鲁建壮

授予年度:2021年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:多核向量加速器 YOLOv4精简网络 并行计算 算法映射 

摘      要:深度神经网络在处理计算机视觉任务方面取得了巨大的成功,成为图像检测应用的优先解决方案。随着卷积神经网络尺寸和深度的不断提高,网络模型的参数量和计算时间也在不断增加,传统的通用处理器平台逐渐无法胜任实时检测的任务。加速神经网络的迫切需求,使得高性能处理器得到了国内外的广泛关注,为复杂问题设计新的硬件结构成为新的研究中心。YOLOv4精简网络是一个结合了数量众多的先进技术而设计出的目标检测网络,在速度和精度上同时达到了优异表现,它主要由卷积层组成,是典型的深度神经网络,具有较高的研究价值。卷积层的计算包括数据的乘法和加法,从乘累加的角度实现卷积网络的加速一直是研究的热点,本文基于国内外卷积神经网络加速方法的研究现状,分析软件加速和硬件加速的优缺点,选择多核向量加速器作为YOLOv4精简网络的映射平台,主要工作有如下三点:·本文分析了YOLOv4精简网络算法,并结合M-DSP体系结构,提出了该算法的映射方案。针对多核向量加速器体系结构的特点,设计了卷积神经网络计算时的数据存储方案,实现了YOLOv4精简网络在多DSP核上的并行计算。·本文设计并实现了该算法的卷积层、池化层和采样层的映射方法,实现了YOLOv4精简网络算法在M-DSP上的映射和多核并行计算。从网络模型的整体出发,提出了多个网络层的融合策略,减少了数据的输入输出,降低总执行时间。·本文基于M-DSP的测试环境,进行了设计方案的验证,实验结果表明,该方案能够有效地将卷积神经网络映射到向量加速器平台,实现了一定的并行加速效果。在工作频率为1.8GHz的八核向量加速器中,映射方案达到了29.83%的计算效率,与图形处理器平台的卷积加速库TensorRT相比,实现了31.75%的性能提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分