软投票聚类集成的研究及其并行化实现
作者单位:西南交通大学
学位级别:硕士
导师姓名:杨燕
授予年度:2016年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:随着人类社会的发展,数据已经渗入人类生活的方方面面,成为重要的生产因素。数据所包含的知识往往是竞争中至关重要的信息。数据挖掘是从大量数据中挖掘知识的一类方法,而聚类分析是数据挖掘中一个重要组成部分。聚类分析的定义是基于某种或多种相似度量原则,将相似的数据分为同一类,不相似的数据区分开。聚类分析按照聚类划分的隶属度取值范围可分为硬聚类和软聚类。硬聚类是指划分的结果为某数据对象要么属于某一类,要么完全不属于某一类。软聚类则是数据对象以一定的概率属于某类。现实世界中很多数据集的实际结构是模糊的,若被按照硬聚类的方式划分,则不可避免的会损失一些有价值的信息,而软聚类处理这类数据具有更重要的意义。现在是大数据时代,特别是数据挖掘,往往针对的是大数据。云计算平台是一种快速处理大数据的工具。由于相似性度量及模型选择的原因,不可能存在一种聚类算法能够完美的适用于所有数据集。针对这种情况,学者们提出了聚类集成算法,聚类集成算法即是通过某种方法将多个聚类结果融合,得出一个更好、更稳定的聚类结果。聚类集成与单个聚类相比,具有更好的鲁棒性、稳定性、准确性和可扩展性。但是现存的聚类集成算法大多数是针对硬聚类的,若要对软聚类结果进行集成,则需要先将软聚类结果进行硬化,这样,会造成信息的损失。针对这一问题,本文做了两方面的工作:第一,改进软投票聚类集成算法(SVCE),提出权重软投票聚类集成算法(WSVCE),第二,提出一种新的软投票聚类集成算法—-VMSC算法,该算法首先对多个隶属度矩阵求均值,然后对结果进行优化。为了能够高效的处理大数据,对WSVCE和VMSC实现其并行化。由于Spark云计算平台在数据处理上相对于Hadoop云计算平台有不可比拟的优势,因此在本文的实验中,并行化采用的是Spark云计算平台。实验证明两种算法的并行化实现具有良好的性能。