基于术语簇和关联规则的文档聚类方法
作者单位:河北大学
学位级别:硕士
导师姓名:徐建民
授予年度:2007年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
主 题:矢量空间模型 关联规则 文档聚类 Web挖掘 术语簇
摘 要:聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到信息科学界的关注和重视,总的来说,Web挖掘可分为三种类型:Web结构挖掘,Web使用挖掘和Web文本挖掘其中,文档聚类属于Web文本挖掘的研究内容,所谓文本挖掘,是指从文档集合中发现隐含的某些未知模式或规则。 文档聚类不同于传统的文档分类,它不是基于预定的类表或类目体系,而是完全基于文档本身,即先有文档后有类,类的内涵和外延以及整个类目体系完全由需要进行聚类处理的文档集合确定。目前常用的文档聚类方法有层次方法和划分方法等,其中,层次方法通过将文档组织成若干类并形成一个相应的树来进行聚类,其准确度较高,但运行速度较慢,不适合大规模文档集合的聚类;划分方法将文档集合水平的划分为许多类,各类间没有层次性,其运行速度较快,但须事先确定聚类数目,且对噪声和输入顺序较敏感,尤其是当文档形式化表示的维数较高时,该方法的性能和聚类质量都明显下降。 对此,本文提出一种基于术语簇和关联规则的文档聚类方法,首先对文档集合进行分词得到许多术语,对这些术语进行处理得到一个术语集合,再计算术语之间的平均互信息并以此为依据使用聚丛法形成术语簇,用术语簇来表示文档,并计算术语簇和文档之间的关联度得到一个关联矩阵,使用DHP(Direct Hashing and Pruning)算法从关联矩阵中挖掘出文档的初始聚类,对此进行聚类分析获得最终的文档聚类。此外,还使用了新的术语权重和文档相似度计算方法,在实验数据的计算中使用了加权平均法。实验结果表明,与传统的聚类方法相比,新聚类方法运行速度快,聚类效果和聚类质量都有显著提高。