咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于对比学习与伪标签的深度图像聚类算法研究 收藏
基于对比学习与伪标签的深度图像聚类算法研究

基于对比学习与伪标签的深度图像聚类算法研究

作     者:刘子炜 

作者单位:河北大学 

学位级别:硕士

导师姓名:张峰

授予年度:2023年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:图像聚类 深度学习 对比学习 伪标签 内存库 

摘      要:图像聚类是一种无监督学习任务,其目标是将相似的图像聚在一起,使同一簇内的图像具有更高的相似性,而不同簇内的图像则有较大差异。传统的聚类算法,如KMeans、层次聚类和谱聚类等,可以用于图像聚类,但是由于图像数据的高维性和复杂性,这些经典的聚类方法很难获得良好性能。随着深度学习在图像处理领域的成功,越来越多的研究者将无监督深度学习和图像聚类算法相结合,提出了多种深度聚类模型。深度聚类方法在图像聚类任务中表现出色,因此逐渐成为研究者关注的方向之一。目前常见的端到端的深度聚类模型大多由对比学习驱动,通过对比学习可以获得更具语义信息并且更适合聚类任务的特征。在基于对比学习的深度聚类算法中,伪标签技术发挥着重要作用,正确的伪标签可以减少噪声的引入,从而提高数据的利用率。然而,不正确的伪标签将会引导网络学习到错误的特征表示,且随着错误的累计将导致网络性能的崩塌。本文主要利用对比学习与伪标签技术,对深度图像聚类算法进行了研究,提出了两个深度图像聚类算法:1、针对现有的大多数伪标签聚类方法不能纠正生成的错误伪标签,导致后续训练中的错误累积,从而降低聚类性能的问题。提出了一种端到端的聚类算法,基于伪标签校正和分布对齐的深度图像聚类算法(Pseudo-label Correction and Distribution Alignment for Deep Image Clustering,简称为PCDAC)。PCDAC通过引入内存库,有效的地利用存储在内存库中的历史簇概率信息与特征表示来校正伪标签,降低伪标签引入的噪声。同时引入分布对齐策略,充分利用了数据样本的强增强和弱增强所提供的各种判别信息,使得网络输出更适合聚类任务的语义特征。实验结果表明,PCDAC算法具有良好的聚类性能。2、目前大部分基于伪标签的图像聚类算法,往往采用固定阈值对伪标签进行筛选,使得各簇无法均衡学习,降低了数据的利用率,导致聚类性能下降。为解决该问题,提出了一种端到端的聚类算法:基于动态伪标签的深度图像聚类算法(Dynamic Threshold of Pseudo-label for Deep Image Clustering,简称为DTPC),DTPC不需要引入额外的有标签数据,而是根据现有数据的分布,动态地调整阈值,通过加入学习程度判断器模块,根据不同簇的学习程度来动态调整阈值,使得筛选的伪标签可以更少的引入噪声,在实现更均衡学习的同时提高了数据利用率,从而达到了提高图像聚类性能的目的。实验结果表明DTPC算法在六个基准数据集上的聚类性能优于现有的大多数主流的图像聚类算法。具体而言DTPC在Image Net-10,Image Net dogs和tiny Image Net数据集上的聚类精度较对比聚类算法(CC)分别提高了8.0%、27.3%和36.4%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分