一种基于语义相似度的文本聚类算法
Clustering Method Based on Semantic Similarity作者机构:南京航空航天大学信息科学与技术学院南京210016
出 版 物:《南京航空航天大学学报》 (Journal of Nanjing University of Aeronautics & Astronautics)
年 卷 期:2006年第38卷第6期
页 面:712-716页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:National Institute of Nursing Research(R01NR19677)
主 题:文本聚类 语义相似度 文本表示 语义相似度的文本聚类算法
摘 要:文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。