咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于亲和力的非完全监督的动态多尺度语义分割研究 收藏
基于亲和力的非完全监督的动态多尺度语义分割研究

基于亲和力的非完全监督的动态多尺度语义分割研究

作     者:杨坤 

作者单位:黑龙江大学 

学位级别:硕士

导师姓名:陆军

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:语义分割 标签 PAR ViT ASPP 

摘      要:传统的语义分割是建立在人工标注的标签基础上,当数据量比较大的时候会大幅度降低标注效率,增加时间和物力成本。为了解决这些问题,目前有一些科研工作者已经尝试把研究重心从原来的完全监督逐渐转移到无监督、弱监督、半监督的方向上。虽然能减轻完全监督的标注成本问题,但缺少人工标签也意味着模型训练效果大大降低。在本文的研究中尝试对模型进行创新,使用新设计的模块并采用目前主流的Vision Transformer(ViT)作为编码器骨干,分别构建一套全新无监督、弱监督语义分割框架,实现具有更高竞争力的效果。 无监督语义分割旨在不使用任何人工标注的情况下进行像素级表征学习。本文首先基于对比学习思想构建了一个多阶段的无监督语义分割模型MCS,它可以在没有人工标注的基础上实现像素级的分类,并在Pascal VOC 2012 Augmented数据集上的MIo U达到了35.3的效果,但这种方法使用的是传统卷积神经网络作为骨干网并且操作步骤繁琐。为了进一步优化分割性能,于是本文又结合CNNs和Vision Transformer固有的优点,提出一个基于四损失函数的端到端无监督语义分割架构动态多尺度亲和力(DMSA)模型,不仅性能更好而且收敛速度要优于以往的分割模型。首先将多头自注意力的注意力块进行单独输出,并且只输出最后一层注意力块,使用由深度可分离卷积和全局平均池化层组成的空洞空间金字塔池化(ASPP)模块以便加强特征提取,同时设计一个动态膨胀策略,从而更好地捕获多尺度的上下文语义信息。其次,引入了像素自适应细化(PAR)模块,该模块用注意力中学习的亲和力加强与RGB信息对齐,自适应将特征融合后的初始掩膜进行细化,从而获得高质量的伪标签。实验表明,本文提出的DMSA框架在Pascal VOC 2012这类显著性数据集上的MIo U达到了37.2,优于目前已有的无监督语义分割方法并获得了更精确的可视化效果。 弱监督语义分割只需要使用一些额外的提示像点、线、边界框、图像级的标签等去辅助模型训练,就可以在精度上带来巨大的提升。以无监督语义分割模型DMSA为启发,在弱监督语义分割的研究中同样使用ViT作为骨干网络,ASPP作为分割头,PAR模块细化生成的标签质量。此外模型的网络使用了一个CTC模块用于将局部语义特征作为先先验去细化全局特征,来增加模型的表征能力。金字塔池化模型(PPM)是由多个全局平均池化构成,但是PPM在计算过程中无法并行操作,非常耗时,于是在研究中尝试将PPM模块改进为并行聚合金字塔池化模块(PPPM),该模块用于将ViT输出的特征图进行拼接,用于强化图像特征。基于上述思想本文中在最后一章提出一个基于自适应亲和力的多尺度弱监督语义分割DWSA,并使用最具挑战性的图像级标签。实验表明DWSA在Pascal VOC 2012 Augmented上的MIo U的值为70.9,超过一些主流的弱监督语义分割方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分