结合沙漏注意力与渐进式混合Transformer的图像分类方法
Hourglass attention and progressive hybrid Transformer for image classification作者机构:辽宁工程技术大学电子与信息工程学院辽宁葫芦岛125105
出 版 物:《液晶与显示》 (Chinese Journal of Liquid Crystals and Displays)
年 卷 期:2024年第39卷第9期
页 面:1223-1232页
学科分类:081203[工学-计算机应用技术] 08[工学] 0703[理学-化学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(No.61772249) 辽宁省高等学校基本科研项目(No.LJKZ0358)
主 题:小数据集图像分类 Transformer 沙漏注意力 多尺度特征 混合架构
摘 要:Transformer在图像分类任务中具有广泛应用,但在小数据集分类任务中,Transformer受到数据量较少、模型参数量过大等因素的影响,导致分类精度低、收敛速度缓慢。本文提出了一种融合沙漏注意力的渐进式混合Transformer模型。首先,通过下-上采样的沙漏自注意力建模全局特征关系,利用上采样补充下采样操作丢失的信息,同时采用可学习温度参数和负对角掩码锐化注意力的分数分布,避免因层数过多产生过度平滑的现象;其次,设计渐进式下采样模块获得细粒度多尺度特征图,有效捕获低维特征信息;最后,使用混合架构,在顶层阶段使用设计的沙漏注意力,底层阶段使用池化层替代注意力模块,并引入带有深度卷积的层归一化,增加网络局部性。所提方法在T-ImageNet、CIFAR10、CIFAR100、SVHN数据集上进行实验,分类精度可以达到97.42%,计算量和参数量分别为3.41G和25M。实验结果表明,与对比算法相比,该方法的分类精度有明显提升,计算量和参数量有明显降低,提高了Transformer模型在小数据集上的性能表现。