中文篇章零元素语料库构建
Building Chinese Zero Corpus Form Discourse Perspective作者机构:苏州大学计算机科学与技术学院自然语言处理实验室苏州215006
出 版 物:《北京大学学报(自然科学版)》 (Acta Scientiarum Naturalium Universitatis Pekinensis)
年 卷 期:2019年第55卷第1期
页 面:15-21页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61472264 61751206) 国家重点研发计划(2017YFB1002101)资助
主 题:中文零元素 篇章视角 语料库构建 中文篇章零元素语料库
摘 要:针对中文零指代问题,从篇章视角进行理论分析,并完成中文篇章零元素语料库(ChineseDiscourse ZeroCorpus,CDZC)的构建工作。首先,整理和分析已有的理论研究以及语料资源,探究篇章层面中文零元素语料库标注的必要性。然后,采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式,完成CDZC语料库的构建。最后,对该语料库进行一系列详细的统计分析。结果表明,CDZC能够充分反映出中文零元素省略的语言特点,为相关研究提供语料资源支持。