中文分词模型的领域适应性方法
Approaches to Domain Adaptive Chinese Segmentation Model作者机构:北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室北京100871
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2015年第38卷第2期
页 面:272-281页
核心收录:
学科分类:0810[工学-信息与通信工程] 0808[工学-电气工程] 0839[工学-网络空间安全] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(60975054 61273318) 国家社会科学基金(06BYY048)资助~~
主 题:卡方统计量 边界熵 领域适应性 自举算法 中文分词 社会计算 社交网络
摘 要:字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.