咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于可解释扩散模型的图像分割数据集生成及分割模型训练方法研究 收藏
基于可解释扩散模型的图像分割数据集生成及分割模型训练方法研究

基于可解释扩散模型的图像分割数据集生成及分割模型训练方法研究

作     者:申传国 

作者单位:曲阜师范大学 

学位级别:硕士

导师姓名:李良知

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:可解释人工智能 计算机视觉 扩散模型 弱监督语义分割 

摘      要:近年来,扩散模型在人工智能研究领域实现了显著的进展,尤其在各类图像生成任务中,表现出了卓越的性能。但由于其内部运作方式的复杂性和不透明性,理解模型如何将输入向量转变为最终图像的过程仍然是个巨大的挑战,从而引发了可解释性问题。在此背景下,可解释人工智能(Explainable Artificial Intelligence,简称XAI)的研究显得尤为重要,其目标在于揭示模型的决策过程,提高模型的透明度,使人们能够理解并信任这些复杂的算法。此外,语义分割是一种强大的计算机视觉技术,能够识别并理解图像中对象的空间位置和形状。然而,由于扩散模型的生成过程通常难以直观地解释,因此从这些生成的图像中提取有用的语义信息并有效地进行语义分割变得颇具挑战性。 鉴于以上问题,本研究旨在利用XAI方法深入研究扩散模型,并探索如何得到文本到图像的可解释结果并应用于语义分割,即使用扩散模型生成图像标签数据集,实现弱监督语义分割。本文主要研究内容包括以下三个方面: (1)针对如何将扩散模型生成图像的可解释性运用到语义分割任务中的问题,本研究设计并实现了一种弱监督语义分割WSSS-DM方法(Weakly Supervised Semantic Segmentationfor Diffusion Models)。主要使用在U-Net网络中的交叉注意力机制使每个词汇与对应的图像像素建立关联。通过从扩散模型的去噪子网络U-Net获取原始归一化的交叉注意力词-像素得分,能定位这些得分对应的词-像素区域,也就是图像的可解释区域。进一步地,为实现扩散模型的弱监督语义分割,对可解释区域进行阈值收缩以提升其作为掩码的精度,然后将各不同的掩码按序堆叠,与原始生成的图片相对应,形成图像-掩码对。这样,就生成了可直接用于弱监督语义分割任务的图像数据集。通过这种方式,成功地将扩散模型生成图像的可解释性引入到语义分割领域,产生了用于弱监督语义分割且具有可解释性的标注数据。 (2)针对WSSS-DM方法中生成的掩码轮廓不精细等问题,本研究提出了一种改进版:WSSS-DM+方法。该方法在WSSS-DM方法基础上引入了一个新的组件,将其称之为DC模块,其目标在于提升扩散模型生成的掩码的质量。DC模块由密度条件随机场(Density Conditional Random Field)和连接组件过滤器(Connected Component Filter)构成。这个模块能使得可解释掩码区域的边缘更准确地符合原始图像的语义区域,并有效地消除散点,从而显著提高掩码的质量。此外,加入了优先级驱动的多掩码叠加策略,来优化文本中不同元素的掩码叠加。为了提高模型处理文本的健壮性,引入了 WBS算法处理各类词汇的变形问题。通过上述措施,本节进一步地解决了 WSSS-DM方法产生的掩码质量问题,提供了更精确的标签数据,从而为弱监督训练提供了更强的支持。 (3)为了直观展示WSSS-DM方法可解释语义分割输出结果,本研究设计并实现了一个基于Gradio的交互平台系统。通过使用Gradio,成功地形成了一个完整且易于操作的用户界面,它能够以直观、生动的方式展示方法的输出图像分割结果。在该界面上,用户只需输入文本和相关参数,系统便会自动生成相应的掩码和图像。借助这个交互平台,用户可以清楚地看到他们的输入如何影响最终生成的图像,以及识别出每个词素对应的可解释区域。交互平台让WSSS-DM方法的工作结果得以直观展现,提高了本研究方法的易用性和实用性,实现语义分割图像数据集的在线生成。 通过以上内容的研究,实现了对扩散模型的可解释,明确展示了文本与生成图像中像素区域关联性。同时,对视觉解释区域进行处理,从而生成了用于语义分割任务的机器标注标签,进而生成了数据集,可应用于语义分割任务,并以掩码标签的形式展现了文本生成的图像中所对应最大关注区域。在利用COCO验证集进行的实验中,本研究的可行性得到了证明。同时,设计了可视化交互平台系统,提升了该方法的操作简便性和可访问能力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分