面向企业竞争情报的文本聚类技术的研究与应用-南通市图书馆

文献详情 >面向企业竞争情报的文本聚类技术的研究与应用收藏

面向企业竞争情报的文本聚类技术的研究与应用

作者：唐恺

作者单位：西安电子科技大学

学位级别：硕士

导师姓名：刘志镜

授予年度：2012年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：竞争情报文本聚类 K-means算法数据挖掘

摘要：伴随着因特网的快速发展，网络上的数据信息急速膨胀。这些海量的数据蕴含巨大的价值，并且主要以文本形式存在。为了实现对大规模文本的分析并从中提取有用信息，文本聚类作为文本挖掘技术的一个重要分支，得到了深入的研究和快速的发展。其中K-means作为一种经典的聚类算法，具有线性的时间复杂度，并且其算法过程简单易于实现，在大规模文本处理方面有着广泛的应用。但是其聚类效果很容易受到初始中心的影响，导致陷入局部最优解，从而降低聚类结果的准确性。本文针对K-means算法的缺点对其初始中心选择的过程进行重点研究，提出了“近邻的概念，并以Web文档为聚类对象，详细阐述了文本聚类的整个过程，包括：文本预处理、聚类分析和质量评价。基于“近邻的思想，本文设计了一种初始中心选择的改进方法。算法改进的思想是使得被选为簇中心的文档之间具有的较低的相似度，并拥有足够多的近邻，从而避免了聚类结果陷入局部最优解的情况，改善了聚类算法的稳定性与准确性。本文在多个文档集上进行聚类实验，验证了改进K-means算法的有效性。同时在理论研究的基础上,将改进算法应用于企业竞争情报系统的核心模块——文档聚类系统，并在企业竞争情报的分析任务中取得了良好的效果。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

面向企业竞争情报的文本聚类技术的研究与应用

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

面向企业竞争情报的文本聚类技术的研究与应用

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：