基于影响空间的K-means聚类算法及其应用
作者单位:太原科技大学
学位级别:硕士
导师姓名:蔡江辉
授予年度:2016年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:K-means 影响空间 初始点优化 ISBFK-means 天体光谱
摘 要:聚类分析作为一种非常重要的数据挖掘技术,已经越来越受到研究者的青睐,并被广泛应用到机器学习、模式识别、图像处理等众多领域。K-means是一种在生活、生产实践中最受关注并广泛使用的经典聚类算法,但仍然存在着对初始中心点和噪声数据敏感、聚类过程距离计算时间开销大等缺陷。本文针对K-means的上述问题分别进行了研究,提出了相应的改进策略,并将改进后的聚类算法应用到天体光谱数据的分析中。主要研究内容如下:(1)针对传统K-means算法对初始中心点和噪声数据比较敏感的缺陷,给出了一种基于影响空间的K-means聚类初始中心点优化算法。该算法引入影响空间数据结构对给定数据集进行区域划分,获得各个区域中的代表数据点,并利用加权距离吸引因子对代表性数据点进行合理合并获取所需要的初始中心点。选取的初始中心点一般分布于局部密度最大区域,可以有效降低噪声数据对聚类结果的影响。理论分析与实验结果表明,该算法在聚类精度和迭代次数上与同类算法比较,具有较大优势。(2)针对传统K-means算法迭代过程时间开销大的问题,给出了一种影响空间下的快速K-means(ISBFK-means)聚类算法。该算法通过对(1)中方法获取的代表数据点进行聚类,得到的代表数据点所属的类别即是该区域中所有数据点所属的类别,有效地降低迭代过程中的数据量,提高了聚类效率。利用UCI数据集与相关算法进行实验比较,实验结果验证了该算法的有效性。(3)在上述研究的基础上,采用所提出的聚类方法对LAMOST光谱数据进行了聚类分析,设计实现了基于影响空间的天体光谱聚类分析原型系统,并介绍了系统相关的功能与关键技术,为分析、探究天体光谱背后隐藏的信息提供了一种有效辅助手段。