基于深度学习和域自适应的遥感影像语义分割
作者单位:电子科技大学
学位级别:硕士
导师姓名:周俊临
授予年度:2023年
学科分类:0810[工学-信息与通信工程] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 081002[工学-信号与信息处理] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:遥感影像 语义分割 深度学习 Transformer 域自适应
摘 要:遥感影像语义分割技术旨在为遥感影像中的所有像素进行分类,该技术在资源规划、生态监测和灾情评估等领域有着重要的实用价值。随着深度学习的快速发展,卷积网络和Transformer网络已经可以自动地从图像中学习到有意义的特征表示,从而成为了目前主流的语义分割方法。然而深度学习模型依然存在着以下缺陷:1)深度学习的训练高度依赖大规模的高质量数据集,然而标注一张高分辨率的遥感影像成本过高,因此限制了深度学习在遥感领域的广泛应用;2)不同的遥感影像数据集往往存在着大量的异物同谱和同物异谱等现象,极大地降低了深度学习模型的泛化性能。为解决以上问题,本文从神经网络模型架构和域自适应策略两个角度优化和改进了基于深度学习的遥感影像语义分割技术,主要工作和贡献总结如下:(1)本文提出了一种基于层级多头自注意力机制和多尺度特征融合的语义分割网络Conv Former。在特征提取阶段,该网络以滑动窗口的方式对图像进行切块和嵌入,随后利用多层自注意力模块捕捉图像在不同尺度下的长距离依赖关系,同时利用一种轻量的前馈神经网络学习图像块的位置信息;在特征融合阶段,该网络首先将提取到的不同尺度的特征进行分辨率对齐,然后利用不同感受野大小的可分离空洞卷积抽取和融合不同范围的特征信息,最终得到稠密的语义分割结果。实验结果表明,本文提出的Conv Former语义分割网络的泛化性能相较于其他语义分割算法提升显著。(2)本文提出了一种基于自训练的域自适应技术,将深度学习模型在有标注的源域中学习到的知识迁移到无标注的目标域,从而在不使用额外标注数据的情况下获得更佳的目标域性能表现。同时,本文从图像输入、模型参数、学习过程共三个方面优化该方法:首先,对源域和目标域的图像进行跨域融合,在增加数据的多样性同时维持了模型在源域中的一致性;其次,引入半监督模型集成技术用于平滑深度学习模型的参数,从而稳定伪标签的生成;最后,从域相关和域无关两个角度优化学习过程,分别提出了局部敏感的伪标签质量和用于平衡类学习的动态权重对自训练方法进行改进。实验结果表明,本文提出的基于局部质量和动态类平衡的自训练域自适应算法相较于其他域自适应算法性能提升显著。