注意力机制和多尺度特征融合的细粒度图像分类
作者机构:西安工程大学电子信息学院 山西大学生命科学学院
出 版 物:《重庆理工大学学报(自然科学)》 (Journal of Chongqing University of Technology(Natural Science))
年 卷 期:2024年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(62203344) 陕西省自然科学基础研究重点项目(2022JZ-35) 陕西高校青年创新团队项目
主 题:人工智能 细粒度分类 特征提取 注意力机制 多尺度特征融合
摘 要:针对细粒度图像分类易受背景干扰、关键区域定位不准确以及模型参数量大的问题,提出了一种注意力机制和多尺度特征融合的分类网络(networks of combine attention mechanisms and multi-scale features, AM-Net)。首先,以YOLOv7网络为基础,使用Ghost BottleNeck模块重新搭建轻量级的主干网络,并使用GhostConv替换颈部网络中的Conv,实现模型的轻量化。其次,引入无参的SimAM注意力机制,通过考虑空间和通道维度的相关性来推断特征图的三维注意力权重,表征局部显著特征,抑制无用特征,提高目标区域信息的有效性。最后,构建可特征选择的金字塔池化模块(fast spatial pyramid pooling with feature selection and convolutions, SPPFC),帮助网络模型更好地捕捉和处理目标的多尺度特征,提高模型的感知能力。通过实验可知,AM-Net在Stanford Dogs数据集上的准确率、精确率、召回率和F1分数分别达到88.9%、83.6%、85.7%和84.6%,模型参数量为26.53 MB,每秒帧率达到89.3帧·s-1,在Stanford Cars数据集上的准确率、精确率和召回率分别达到95.2%、93.7%和94.9%。实验结果表明,AM-Net可以在轻量化网络的同时提高细粒度图像的分类精度,相比于其它网络模型性能上有较大提升。