咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多视图聚类算法研究 收藏
多视图聚类算法研究

多视图聚类算法研究

作     者:管娇娇 

作者单位:江南大学 

学位级别:硕士

导师姓名:钱雪忠;周丹平

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:多视图聚类 格拉斯曼流形 分区空间 张量核范数 空气质量分析 

摘      要:越来越多的样本可以通过多个视图的不同特征来表示,数据的多样性和维数日益增长,单视图聚类算法研究已经接近瓶颈。基于特征相互补充的假设,多视图聚类可以有效组合异构特征,将数据点划分到不同的类别中,从而获得更优的聚类。本文从多个角度研究多视图聚类,并对多视图聚类算法进行改进,具体研究如下:(1)提出一种基于格拉斯曼流形融合子空间的多视图聚类算法。现有的多视图聚类算法在学习子空间时,假设多视图数据点之间存在线性关系,或者在学习的过程中无法保留原始特征空间的局部性。此外,在欧氏空间中将不同视图的子空间表示直接融合过于死板,无法将学习到的子空间表示对齐。基于格拉斯曼流形融合子空间的多视图聚类算法可以有效解决上述问题,该算法由以下三部分构成:一是将核学习和局部流形结构学习相结合得到不同视图的子空间表示,核学习能将原始特征空间中的非线性数据映射到高维核空间中,局部流形结构能使原始特征空间相近的数据在表示空间中也相近;二是在格拉斯曼流形上融合这些子空间表示得到一致性亲和矩阵,促进各视图对应的子空间表示矩阵对齐;三是对一致性亲和矩阵施加秩约束,使一致性亲和矩阵的连通分量数等于聚类个数,促进样本直接划分到聚类中。将这三部分整合到一个框架中,利用交替方向乘子法求解约束优化问题,算法在8个基准数据集上取得了较好的效果。(2)提出一种基于分区融合和张量表示的多视图聚类算法。现有的多视图聚类算法在集成多视图信息时忽略了多视图数据存在的噪声和多视图异构特征之间的不一致,在融合多视图信息时平等地对待每一个视图,不能充分考虑视图的权重差异,或者在学习的过程中忽略了多视图的高阶相关信息。基于分区融合和张量表示的多视图聚类算法能有效解决上述问题,该算法由三个部分组成:一是将核学习和局部流形结构相结合得到每个视图的子空间表示,通过自适应权重学习衡量不同视图的重要性;二是根据子空间表示生成对应的分区空间,分区矩阵比子空间表示矩阵有更清晰的聚类信息;三是将分区矩阵重组为一个三阶张量,在张量上施加张量核范数来捕获多视图的高阶相关性。将分区空间学习和张量低秩表示统一到一个框架中,设计了一种有效的优化算法来解决优化问题,算法在12个基准数据集上取得了较优的聚类结果。(3)空气质量是决定一个城市发展的重要依据,多视图聚类算法可以应用到空气质量分析中。首先,分析影响空气质量的因素并收集相关数据,对数据进行预处理得到多视图数据集。然后,将本文提出的两种多视图算法应用到数据集上进行空气质量分析。与11种对比算法进行比较,实验结果表明本文算法具有良好的性能,有一定的实用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分