熵加权多视角核k-means聚类算法的研究
作者单位:郑州大学
学位级别:硕士
导师姓名:邱保志
授予年度:2016年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:近年来,数据的多样性使得传统的聚类算法已经无法满足数据分析的要求,于是人们提出了多视角聚类。现有的多视角聚类技术主要分为三类,协同训练算法、基于多核聚类算法和基于子空间的多视角聚类算法。但是多特征数据中可能存在受噪声干扰视角或无关视角,本文为了解决这个问题进行了相关的研究。首先研究了多视角算法的收敛性。多视角聚类能从根本上改善分类和聚类的结果,但只有这些算法是收敛的才能保证其有效性。本文用Zangwill收敛性定理对多视角核k-means(MVKKM)的收敛性进行了分析。结果表明,当满足一定的条件时,MVKKM生成的迭代序列收敛或至少存在一个子序列收敛于算法目标函数的局部极小值或鞍点。其次改进多视角核k-means算法,在基于视角加权的多视角聚类中,每个视角的权重取值对聚类结果的精度有着重要的影响。针对此问题,提出熵加权多视角核k-means(EWKKM)算法,通过给每个视角分配一个合理的权值来降低噪声视角或无关视角对多视角聚类的影响,进而提高聚类的精度。EWKKM算法中,首先用核矩阵表示不同的视角,给每个视角分配一个权重;然后,利用信息熵计算出各个视角的熵权重;最后,按照定义的目标函数对各个视角的权重进行优化,使用核k-means进行多视角聚类。最后,基于人工数据集和真实数据集进行了实验,实验的结果表明了该算法的有效性。