大规模数据挖掘聚类算法的研究与实现
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:王保保
授予年度:2013年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:数据挖掘 聚类 Weka MapReduce 分布式计算
摘 要:数据挖掘技术集合了人工智能、机器学习、模式识别、统计学、数据库、可视化技术等众多领域学科,从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。数据挖掘作为引领当今世界信息技术领域的关键技术,已经引起了学术界和工业界的广泛关注与研究应用。 聚类分析作为数据挖掘功能的一个重要分支,是一种非监督模式识别,至今已提出了大量的理论基础和实现算法,取得了可喜的研究成果。但是,聚类中还存在着许多广为人知的问题,随着信息量的飞涨以及数据对象的日趋复杂,聚类分析面临着更多新的内容和挑战。这就要求引入新的聚类改进方法,并提出新的理论和方法去适应新的应用。 本文以硬k均值和模糊k均值为例,在深入研究传统经典聚类算法基础上,对这两种聚类分析方法进行了详细探讨与研究并提出几点改进方法。认真学习了开源数据挖掘项目Weka,在此基础上对模糊k均值算法进行了二次开发,并对算法的可靠性做了验证实验。为了适应于大数据量的协同并行数据挖掘运算,引入了MapReduce设计模式,并采用包含分布式文件系统的Hadoop架构对典型聚类算法进行了设计与实现,实验证明基于分布式计算的聚类分析算法相对于单机处理模式有很好的效率以及扩展性。