基于术语簇和关联规则的文档聚类方法-南通市图书馆

文献详情 >基于术语簇和关联规则的文档聚类方法收藏

基于术语簇和关联规则的文档聚类方法

作者：成岳鹏

作者单位：河北大学

学位级别：硕士

导师姓名：徐建民

授予年度：2007年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：矢量空间模型关联规则文档聚类 Web挖掘术语簇

摘要：聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到信息科学界的关注和重视,总的来说,Web挖掘可分为三种类型：Web结构挖掘,Web使用挖掘和Web文本挖掘其中,文档聚类属于Web文本挖掘的研究内容,所谓文本挖掘,是指从文档集合中发现隐含的某些未知模式或规则。文档聚类不同于传统的文档分类,它不是基于预定的类表或类目体系,而是完全基于文档本身,即先有文档后有类,类的内涵和外延以及整个类目体系完全由需要进行聚类处理的文档集合确定。目前常用的文档聚类方法有层次方法和划分方法等,其中,层次方法通过将文档组织成若干类并形成一个相应的树来进行聚类,其准确度较高,但运行速度较慢,不适合大规模文档集合的聚类;划分方法将文档集合水平的划分为许多类,各类间没有层次性,其运行速度较快,但须事先确定聚类数目,且对噪声和输入顺序较敏感,尤其是当文档形式化表示的维数较高时,该方法的性能和聚类质量都明显下降。对此,本文提出一种基于术语簇和关联规则的文档聚类方法,首先对文档集合进行分词得到许多术语,对这些术语进行处理得到一个术语集合,再计算术语之间的平均互信息并以此为依据使用聚丛法形成术语簇,用术语簇来表示文档,并计算术语簇和文档之间的关联度得到一个关联矩阵,使用DHP(Direct Hashing and Pruning)算法从关联矩阵中挖掘出文档的初始聚类,对此进行聚类分析获得最终的文档聚类。此外,还使用了新的术语权重和文档相似度计算方法,在实验数据的计算中使用了加权平均法。实验结果表明,与传统的聚类方法相比,新聚类方法运行速度快,聚类效果和聚类质量都有显著提高。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于术语簇和关联规则的文档聚类方法

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于术语簇和关联规则的文档聚类方法

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：