基于N-Gram的文本去重方法研究
A Study on Removing Duplication Using N-gram Terms for Chinese Text作者机构:杭州电子科技大学计算机应用研究所浙江杭州310018
出 版 物:《杭州电子科技大学学报(自然科学版)》 (Journal of Hangzhou Dianzi University:Natural Sciences)
年 卷 期:2010年第30卷第2期
页 面:61-64页
学科分类:0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学]
摘 要:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。