咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Depth-wise卷积和视觉Transformer的图... 收藏

基于Depth-wise卷积和视觉Transformer的图像分类模型

Novel Image Classification Model Based on Depth-wise Convolution Neural Network and Visual Transformer

作     者:张峰 黄仕鑫 花强 董春茹 ZHANG Feng;HUANG Shixin;HUA Qiang;DONG Chunru

作者机构:河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室河北保定071002 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2024年第51卷第2期

页      面:196-204页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:科技部重点研发项目(2022YFE0196100) 河北省自然科学基金面上项目(F2018201115) 河北省教育厅科学技术研究重点项目(ZD2019021) 河北大学高层次创新人才科研启动经费项目 

主  题:深度学习 图像分类 Depth-wise卷积 视觉Transformer 注意力机制 

摘      要:图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分