基于属性转换的混合属性聚类技术研究
作者单位:郑州大学
学位级别:硕士
导师姓名:邱保志
授予年度:2021年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:在数据挖掘中聚类是一项关键的技术。它是根据某种方法计算相似性并将对象之间相似性大的聚在一起。近年来,聚类技术已经广泛应用到许多领域中的数据分析中,如:金融、生物、人工智能等领域。早期的聚类技术大多是针对数值型数据进行聚类,而现实生活中,数据的属性通常包含数值型和分类属性,更好度量混合属性数据对象之间的相似性是提高聚类质量的关键问题,也是学者们研究的热点问题之一。 (1)在混合属性数据集中,计算对象相似性都是使用两种计算方法分别计算数值属性与分类属性相似性,然后把二者组合成混合属性对象的相似性,因两种计算相似性方法的差异会降低最终的聚类效果,因此提出基于熵和属性转换的混合属性聚类算法EAT。该算法引入熵离散化技术,对混合属性数据集进行属性转换,从而可只使用二元化距离计算对象相似性。首次聚类随机选取k个聚类中心,然后根据对象的相似性将对象划分到对应的簇中,更新聚类中心重新依据相似性将对象划分到对应的簇中,重复这个过程当目标函数收敛时,聚类完成。选取了UCI的数据集进行了实验,实验结果表明算法是有效的。 (2)由于属性在聚类过程中的重要程度不同,故在EAT算法基础上,提出基于熵和属性加权的混合属性聚类算法EAW。在对混合属性数据集进行属性转换后,聚类时计算相似性的方法在仅用二元化距离的同时数据使用组内熵作为属性的加权值以赋予每个属性重要程度,并且进行控制变量,聚类中心选取策略和目标函数与EAT算法相同,迭代满足目标函数时完成聚类。在UCI上的实验结果表明,算法能提高聚类的效果。