检索结果-南通市图书馆

微电子学与计算机 2021年第1期38卷 22-26,32页

作者：包冲张善从中国科学院大学北京100049 中国科学院空间应用工程与技术中心北京100094

矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出... 详细信息

矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出了带容错的,用于通用矩阵乘法计算的方法,并以CUDA库函数的方式实现.论文讨论了算法的原理,用一种高效的方法实现了容错计算,并提出了一个低开销、高准确率的阈值计算方法用于在线的快速纠错和检错.在两款嵌入式GPU平台上对带容错功能的GEMM库函数进行了评估,其纠错和检错能力与预期一致,并且在大部分情况下,额外性能开销能够控制在50%以内,证明了该GEMM函数可以在较低的性能开销情况下,能够很好的实现GEMM计算的检错和纠错,在某些结果-关键的高性能计算中,具有一定的实用价值.

关键词：通用矩阵乘法基于算法的容错静默数据损坏浮点运算校验和检错与纠错

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

GGCN:基于GPU的高光谱图像分类算法

引用

激光与光电子学进展 2020年第20期57卷 223-229页

作者：张明华邹亚晴宋巍黄冬梅刘智翔上海海洋大学信息学院 201306 上海电力大学电子与信息工程学院上海200090

高光谱图像分类是遥感领域的研究热点之一,是对地观测的重要手段,在地物的精细识别等领域具有重要的应用。使用卷积神经网络(CNN)可以有效地从原始图像中提取高级特征,具有较高的分类精度。但CNN计算量巨大,对硬件要求较高。为了提高模... 详细信息

高光谱图像分类是遥感领域的研究热点之一,是对地观测的重要手段,在地物的精细识别等领域具有重要的应用。使用卷积神经网络(CNN)可以有效地从原始图像中提取高级特征,具有较高的分类精度。但CNN计算量巨大,对硬件要求较高。为了提高模型计算效率,可以在图形处理器(GPU)上进行CNN模型的训练。现有的并行算法,比如GCN(GPU based Cube-CNN),无法充分利用GPU的并行能力,算法加速效果并不理想。为了进一步提升算法效率,提出基于通用矩阵乘法(GEMM)算法的GGCN(GPU based Cube-CNN improved by GEMM)并行加速算法,通过G-PNPE(GEMM based Parallel Neighbor Pixels Extraction)对输入数据和卷积核进行重新组织排列,实现卷积的并行计算,有效地提高了GPU的利用率并进一步提升了算法的训练效率。通过分析在三个数据集上的实验结果发现,改进算法的分类精度与原算法保持一致,而且模型的训练时间缩短了30%左右,表明算法的有效性和优越性。

关键词：成像系统高光谱图像图形处理器通用矩阵乘法并行计算

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

面向飞腾处理器平台的快速卷积算法优化

引用

上海理工大学学报 2024年第6期46卷 610-619页

作者：赵亚飞杨耀功王永刚魏继增天津大学智能与计算学部天津300354 飞腾信息技术有限公司天津300459

为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 详细信息

为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。

关键词：深度学习快速卷积算法并行计算通用矩阵乘法

来源：

维普期刊数据库

同方期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

面向ARMv8多核处理器的小规模及不规则矩阵乘性能优化技术研究

面向ARMv8多核处理器的小规模及不规则矩阵乘性能优化技术研究

引用

作者：杨维铃国防科技大学

学位级别：硕士

通用矩阵-矩阵乘法(GEMM,GEneral Matrix Multiply)是高性能计算领域中最关键的例程之一,也是高性能线性代数库(BLAS,Basic Linear Algebra Subprograms)的核心操作。尽管现有BLAS库可以在大规模GEMM上取得接近处理器峰值的性能,但在小... 详细信息

通用矩阵-矩阵乘法(GEMM,GEneral Matrix Multiply)是高性能计算领域中最关键的例程之一,也是高性能线性代数库(BLAS,Basic Linear Algebra Subprograms)的核心操作。尽管现有BLAS库可以在大规模GEMM上取得接近处理器峰值的性能,但在小型及不规则形状的矩阵乘法(SMM)上性能表现不佳。SMM负载广泛存在于实际应用中,其在x86 CPU和GPU平台上的优化取得了显著的进展,但在ARM架构的处理器上的研究尚少。为此,本论文针对ARMv8多核处理器研究SMM的性能优化技术,旨在充分挖掘ARMv8多核处理器的计算潜力,并为科学计算和深度学习的应用开发提供有力支撑。具体而言,本文的主要工作包括三个方面:为了定位SMM的性能瓶颈,本文首先在Phytium 2000+处理器上系统地评测了其性能表现。评测工作使用现有主流的开源BLAS库,包括Open BLAS、BLIS、BALSFEO和Eigen,然后讨论了影响SMM性能的因素:(1)减小数据打包开销;(2)高效地处理边缘情况;(3)选择合适的微内核;(4)采用合理的并行化方法。这些发现为ARMv8处理器上SMM的优化提供了方向。针对性能瓶颈,本文实现了针对ARMv8架构的矩阵乘法库Lib Shalom,用来提升SMM的性能。Lib Shalom对经典的Goto算法进行了修改,以最大限度地减少用于数据打包和小矩阵处理的昂贵内存访问开销。具体而言,Lib Shalom将打包步骤与计算操作重叠,使用解析建模方法确定SMM微内核的配置参数,从而提高SMM的计算和并行化效率。实验结果表明,Lib Shalom在Kun Peng 920(KP920)、Thunder X2和Phytium 2000+这三个ARM处理器上的性能都优于现有的BLAS库。为了验证LibShalom是否能为实际应用带来性能收益,本文将Lib Shalom整合到深度学习框架Mxnet,用以替换原先的Open BLAS来完成Mxnet中的卷积计算,并对卷积神经网络(CNN,Convolutional Neural Networks)的推理性能进行了评测。实验结果表明,针对典型的CNN应用,本文的工作相对于Mxnet的默认配置平均提升了约2倍。

关键词：通用矩阵乘法 ARMv8多核处理器性能评测与优化 LibShalom

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：