咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >大规模现代汉语标注语料库的加工规范 收藏

大规模现代汉语标注语料库的加工规范

The Guideline for Segmentation and Part Of Speech Tagging on Very Large Scale Corpus of Contemporary Chinese

作     者:俞士汶 朱学锋 段慧明 

作者机构:北京大学计算语言学研究所北京100871 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2000年第14卷第6期

页      面:58-64页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:富士通公司及北京大学 985项目 

主  题:现代汉语标注语料库 词语切分 词性标注 加工 

摘      要:北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分