蒙古语词法分析的有向图模型
Directed Graph Model for Mongolian Lexical Analysis作者机构:中国科学院计算技术研究所北京100190 内蒙古大学蒙古学学院内蒙古呼和浩特010021 河南师范大学计算机与信息技术学院河南新乡453007
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2011年第25卷第5期
页 面:94-100页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(Contract60736014) 863重点项目(2006AA010108) 教育部 国家语委民族语言文字规范标准建设及信息化资助项目(MZ115-038)
主 题:蒙古语 词法分析 词语切分 词性标注 词干提取 有向图
摘 要:我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。