面向企业竞争情报的文本聚类技术的研究与应用
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:刘志镜
授予年度:2012年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:伴随着因特网的快速发展,网络上的数据信息急速膨胀。这些海量的数据蕴含巨大的价值,并且主要以文本形式存在。为了实现对大规模文本的分析并从中提取有用信息,文本聚类作为文本挖掘技术的一个重要分支,得到了深入的研究和快速的发展。其中K-means作为一种经典的聚类算法,具有线性的时间复杂度,并且其算法过程简单易于实现,在大规模文本处理方面有着广泛的应用。但是其聚类效果很容易受到初始中心的影响,导致陷入局部最优解,从而降低聚类结果的准确性。 本文针对K-means算法的缺点对其初始中心选择的过程进行重点研究,提出了“近邻的概念,并以Web文档为聚类对象,详细阐述了文本聚类的整个过程,包括:文本预处理、聚类分析和质量评价。基于“近邻的思想,本文设计了一种初始中心选择的改进方法。算法改进的思想是使得被选为簇中心的文档之间具有的较低的相似度,并拥有足够多的近邻,从而避免了聚类结果陷入局部最优解的情况,改善了聚类算法的稳定性与准确性。 本文在多个文档集上进行聚类实验,验证了改进K-means算法的有效性。同时在理论研究的基础上,将改进算法应用于企业竞争情报系统的核心模块——文档聚类系统,并在企业竞争情报的分析任务中取得了良好的效果。