咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于N-Gram的文本去重方法研究 收藏

基于N-Gram的文本去重方法研究

A Study on Removing Duplication Using N-gram Terms for Chinese Text

作     者:王小华 卢小康 WANG Xiao-hua;LU Xiao-kang

作者机构:杭州电子科技大学计算机应用研究所浙江杭州310018 

出 版 物:《杭州电子科技大学学报(自然科学版)》 (Journal of Hangzhou Dianzi University:Natural Sciences)

年 卷 期:2010年第30卷第2期

页      面:61-64页

学科分类:0809[工学-电子科学与技术(可授工学、理学学位)] 08[工学] 

主  题:文本去重 文本特征 特征映射 中文信息处理 

摘      要:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分