一种结合词项语义信息和TF-IDF方法的文本相似度量方法
A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method作者机构:中山大学信息科学与技术学院广州510006 广东金融学院计算机科学与技术系广州510520
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2011年第34卷第5期
页 面:856-864页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61033010) 国家科技重大专项基金(2008ZX10005-013) 广东省科技计划项目(2009A080207005 2009B090300450 2010A040303004)资助~~
摘 要:传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.