基于CNN与ViT混合结构的遥感图像地物分类算法
A Hybrid Algorithm for Remote Sensing Image Land Cover Classification Combining CNN and ViT作者机构:内蒙古农业大学计算机与信息工程学院呼和浩特010018
出 版 物:《遥感信息》 (Remote Sensing Information)
年 卷 期:2024年第39卷第3期
页 面:121-127页
核心收录:
学科分类:0810[工学-信息与通信工程] 08[工学] 081002[工学-信号与信息处理]
基 金:国家自然科学基金(61962048、61562067)
主 题:卷积神经网络 深度学习 视觉transformer 地物分类 图像处理
摘 要:针对传统的基于机器学习和卷积神经网络等遥感图像分类方法整体分类精度不高以及受限于局部感受野造成的全局特征提取不足等现象,为进一步提高遥感图像的分类精度,提出了一种结合三维、二维卷积核混合的神经网络(three dimensional and two dimensional convolutional neural network, 3D-2D CNN)与视觉transformer(vision transformer, ViT)的遥感图像分类方法Hybrid CNN-ViT。算法在3D和2D卷积核充分提取遥感图像空间光谱信息的基础上,通过ViT的多头注意力机制提取全局序列信息,解决全局特征提取不足的问题。实验将影像划分不同比例的训练集、验证集与测试集,并与DBDA、DBMA和3D-2D CNN做对比。结果表明,训练集∶验证集∶测试集为8∶1∶1时,该方法的分类精度达到最高,总体分类精度(99.47%)、Kappa系数(0.9908)均优于其他3种方法。