基于分类效用的无参数聚类算法及其改进研究
作者单位:华南理工大学
学位级别:硕士
导师姓名:蔡毅
授予年度:2017年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:由于大多数现有的聚类方法都没有考虑类别的层次结构以及用户的分类角度,得到的聚类结果对用户来说往往不易理解,并且这些方法都需要用户输入一些敏感的参数,使得聚类的质量难以控制。因此,针对这两点不足,本文引入了认知心理学中基本层次类别的概念,将聚类问题转化为寻找基本层次类别的问题。根据基本层次类别的特点,本文将认知心理学中的分类效用与层次聚类相结合去寻找文本中的基本层次类别,并通过卡方检验、BDC以及离散类的划分来减小噪音特征和异常点对寻找基本层次类别的影响,提出了一种基于分类效用的二次文本聚类算法。该算法是一种无参数的文本聚类算法,它可以从用户的角度对文本进行聚类,自动找到文本中的基本层次类别。同时,本文还对基本层次类别之间的关系进行了可视化,方便用户对基本层次类别进行分析,并为离散类的判定提供决策支持。由于分类效用值受噪音特征的影响很大,而且它无法用于寻找连续型数据中的基本层次类别,因此,本文对分类效用的定义公式进行改进,提出了一种新的基于熵的分类效用函数(Entropy-based Category Utility,ECU),并利用ECU去寻找数据中的基本层次类别,提出了一种基于Entropy-based Category Utility的聚类算法。该算法可以同时应用于文本数据和连续型数据,并且相比分类效用,ECU对特征的依赖性更小,适应性更强。为了验证算法的有效性和优越性,本文采用了两个文本数据集和六个连续型数据集进行实验,实验结果表明,本文算法可以得到比其他算法更加自然的聚类结果。