KBAC:一种基于K-means的自适应聚类
KBAC:K-means Based Adaptive Clustering for Massive Dataset作者机构:复旦大学计算机科学技术学院上海200433
出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)
年 卷 期:2012年第33卷第10期
页 面:2268-2272页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61003001 71071098)资助 高等学校博士学科点专项科研基金项目(20100071120032)资助
摘 要:K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.