基于条件随机场模型的汉语功能块自动标注
Automatic Labeling of Chinese Functional Chunks Based on Conditional Random Fields Model作者机构:山西大学计算机与信息技术学院太原030006 山西大学计算中心太原030006
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2010年第47卷第2期
页 面:336-343页
核心收录:
学科分类:0810[工学-信息与通信工程] 0808[工学-电气工程] 08[工学] 081203[工学-计算机应用技术] 0839[工学-网络空间安全] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(60873128) 山西省科技攻关计划基金项目(2007031126_01)~~
主 题:汉语基本块 汉语功能块 条件随机场模型 句法分析 序列标注
摘 要:汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.