混合的大规模数据库中数值型数据聚类算法研究
Research on Numerical Data Clustering Algorithm in Hybrid Large Scale Database作者机构:广东财经大学华商学院广东广州511300
出 版 物:《微电子学与计算机》 (Microelectronics & Computer)
年 卷 期:2017年第34卷第2期
页 面:119-122,127页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:大规模数据库中的海量数据多具有混合属性,即数值型数据与其他类型的数据混合于一体、数据量庞杂、不易区分.传统算法往往忽视多种属性间的关联性,算法复杂、聚类速度慢、效果差.对此提出一种基于划分聚类的混合大规模数据库中数值型数据聚类算法.首先为降低传统算法的高复杂度,要从大规模的数据库中合理抽取多个小数据集,小数据集中要包含数据库中全部的自然簇;依据相似度定义构建小数据集的相似度矩阵,并分别进行数值型数据及其他类型数据的相似度计算;最后对抽样聚类的结果进行整合、均值更新和划分,实现混合的大规模数据库中数值型数据的聚类.仿真实验表明,提出的算法计算速度快、运算量相对较小、误差率低,能够得到更理想的聚类效果,适用于大规模的数据聚类处理.