基于Transformer的多尺度遥感语义分割网络
作者机构:重庆邮电大学移动通信技术重庆市重点实验室 重庆邮电大学通信与信息工程学院 重庆邮电大学移动通信教育部工程研究中心
出 版 物:《智能系统学报》 (CAAI Transactions on Intelligent Systems)
年 卷 期:2024年
核心收录:
学科分类:0810[工学-信息与通信工程] 08[工学] 081002[工学-信号与信息处理]
主 题:遥感图像 语义分割 卷积神经网络 Transformer 全局上下文信息 多尺度感受野 编码器 解码器
摘 要:为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征两个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale transformer network,MSTNet)。其由编码器和解码器两个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(Multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(mF1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。