咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分词提取重复串的未登录词遗漏量化模型 收藏

基于分词提取重复串的未登录词遗漏量化模型

Quantitative Omission Model of Candidate Unknown Words for Chinese Word Segmentation Based Repeat Extraction

作     者:张海军 史树敏 丁溪源 黄河燕 ZHANG Haijun;SHI Shumin;DING Xiyuan;HUANG Heyan

作者机构:中国科学技术大学计算机科学与技术学院安徽合肥230027 中国科学院计算机语言信息工程研究中心北京100097 北京理工大学计算机科学与技术学院北京100081 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2011年第25卷第2期

页      面:122-128页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(60672149) 国家863计划重点资助项目(2006AA010109) 

主  题:未登录词识别 重复串 条件随机域模型 中文分词 

摘      要:基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分