基于量子机制的分类属性数据聚类算法研究
The Research on Clustering Algorithm for Categorical Data using Quantum Mechanics作者单位:兰州理工大学
学位级别:硕士
导师姓名:李炜;赵小强
授予年度:2009年
学科分类:08[工学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:数据挖掘 聚类分析 分类属性数据 相异性度量测度 聚类度量尺度步长 聚类有效性
摘 要:数据挖掘技术是近年来国际上在信息决策领域较为活跃的研究方向之一。作为数据挖掘的一种有力分析工具,聚类分析得到了人们的广泛关注。在众多待聚类的数据类型中,分类属性数据是常见的一类,其属性值是有限无序的,且不可比较大小。由于分类属性数据对象分布固有的无序性,使得仅有少数几种算法能实现对其聚类,但这些算法或多或少地存在不稳定、随机性差等缺点。因此,积极探索更新、更有效的分类属性数据聚类算法依然是聚类研究的一个重要组成部分。鉴于此,本文在深入研究现有CQC(Categorical Quantum Clustering)算法的基础上,针对其存在的问题,主要进行了以下工作: (1)针对CQC算法由于采用传统的Hamming相异性度量测度计算数据对象间相异性,忽略了分类属性取值自身的涵义以及取值之间的特征关联,从而导致CQC算法聚类能力受限问题,通过引入一种新的分类属性数据Ahmad相异性度量测度,提出了一种改进的MCQC算法,并分别对分类属性、二值属性和混合属性数据集进行了仿真研究,结果表明改进后的MCQC算法具有更高的聚类准确率。 (2)针对CQC算法聚类效果对聚类度量尺度β较敏感,而β的确定无通用原则,可操作性差,以及CQC算法对线性不可分的数据不能奏效等问题,通过引入聚类度量尺度步长βtep和紧致性指AIAD,提出了ICQC算法,并分别在线性可分数据集和线性不可分数据集中进行了仿真验证。实验结果表明,ICQC算法在准确性、鲁棒性上较CQC算法均有提高。 (3)针对CQC算法和ICQC算法不能自动、准确地确定聚类最佳类别数,在聚类有效性方面存在欠缺的问题,通过定义一种以紧致性指标AIAD和离散性指标AIED为基础的聚类有效性函数CVF,结合层次凝聚的思想,提出了CQHC算法,并以仿真实例验证了:聚类有效性函数CVF是合理的;CQHC算法不仅具有更高的聚类准确率而且能够准确地检测出最佳类别数,是有效可行的。