基于亲和力的非完全监督的动态多尺度语义分割研究-南通市图书馆

文献详情 >基于亲和力的非完全监督的动态多尺度语义分割研究收藏

基于亲和力的非完全监督的动态多尺度语义分割研究

作者：杨坤

学位级别：硕士

导师姓名：陆军

授予年度：2024年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：语义分割标签 PAR ViT ASPP

摘要：传统的语义分割是建立在人工标注的标签基础上,当数据量比较大的时候会大幅度降低标注效率,增加时间和物力成本。为了解决这些问题,目前有一些科研工作者已经尝试把研究重心从原来的完全监督逐渐转移到无监督、弱监督、半监督的方向上。虽然能减轻完全监督的标注成本问题,但缺少人工标签也意味着模型训练效果大大降低。在本文的研究中尝试对模型进行创新,使用新设计的模块并采用目前主流的Vision Transformer(ViT)作为编码器骨干,分别构建一套全新无监督、弱监督语义分割框架,实现具有更高竞争力的效果。无监督语义分割旨在不使用任何人工标注的情况下进行像素级表征学习。本文首先基于对比学习思想构建了一个多阶段的无监督语义分割模型MCS,它可以在没有人工标注的基础上实现像素级的分类,并在Pascal VOC 2012 Augmented数据集上的MIo U达到了35.3的效果,但这种方法使用的是传统卷积神经网络作为骨干网并且操作步骤繁琐。为了进一步优化分割性能,于是本文又结合CNNs和Vision Transformer固有的优点,提出一个基于四损失函数的端到端无监督语义分割架构动态多尺度亲和力(DMSA)模型,不仅性能更好而且收敛速度要优于以往的分割模型。首先将多头自注意力的注意力块进行单独输出,并且只输出最后一层注意力块,使用由深度可分离卷积和全局平均池化层组成的空洞空间金字塔池化(ASPP)模块以便加强特征提取,同时设计一个动态膨胀策略,从而更好地捕获多尺度的上下文语义信息。其次,引入了像素自适应细化(PAR)模块,该模块用注意力中学习的亲和力加强与RGB信息对齐,自适应将特征融合后的初始掩膜进行细化,从而获得高质量的伪标签。实验表明,本文提出的DMSA框架在Pascal VOC 2012这类显著性数据集上的MIo U达到了37.2,优于目前已有的无监督语义分割方法并获得了更精确的可视化效果。弱监督语义分割只需要使用一些额外的提示像点、线、边界框、图像级的标签等去辅助模型训练,就可以在精度上带来巨大的提升。以无监督语义分割模型DMSA为启发,在弱监督语义分割的研究中同样使用ViT作为骨干网络,ASPP作为分割头,PAR模块细化生成的标签质量。此外模型的网络使用了一个CTC模块用于将局部语义特征作为先先验去细化全局特征,来增加模型的表征能力。金字塔池化模型(PPM)是由多个全局平均池化构成,但是PPM在计算过程中无法并行操作,非常耗时,于是在研究中尝试将PPM模块改进为并行聚合金字塔池化模块(PPPM),该模块用于将ViT输出的特征图进行拼接,用于强化图像特征。基于上述思想本文中在最后一章提出一个基于自适应亲和力的多尺度弱监督语义分割DWSA,并使用最具挑战性的图像级标签。实验表明DWSA在Pascal VOC 2012 Augmented上的MIo U的值为70.9,超过一些主流的弱监督语义分割方法。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于亲和力的非完全监督的动态多尺度语义分割研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于亲和力的非完全监督的动态多尺度语义分割研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：