改进CK-means+算法及并行实现
Improved CK-means+algorithm and parallel implementation作者机构:新疆大学软件学院新疆维吾尔自治区信号检测与处理重点实验室新疆乌鲁木齐830046 南京信息工程大学国际教育学院江苏南京210044
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2022年第43卷第5期
页 面:1240-1248页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61966035) 新疆维吾尔自治区教育厅创新团队基金项目(XJEDU2017T002)
主 题:Canopy算法 K-means算法 初始值K 初始中心点 并行化
摘 要:为降低K值的不确定性和初始聚类中心的随机性对聚类结果的影响,提出一种基于优化Canopy算法和均值计算法的改进K-means算法——CK-means+。优化Canopy算法,降低距离阈值T不确定性对最终输出K值的影响,通过Canopy算法和均值计算法得到K值和初始中心点。在UCI数据集上,结合Spark框架并行化,实验结果表明,相较其它算法,CK-means+算法效率更高,可以更好适应大规模数据应用场景。