统计与规则相结合的蒙汉机器翻译研究
作者单位:内蒙古师范大学
学位级别:硕士
导师姓名:王斯日古楞
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:机器翻译是一项具有重要意义和应用价值的研究课题。从实现方法上机器翻译可以分为基于规则的、基于统计的、基于实例的三种,每种方法有各自的优点和缺点。基于规则的机器翻译方法的优点是可以准确的描述语言特征规律,并且不依赖大量的双语语料库,但是很难覆盖所有的语言现象。基于统计的机器翻译从基于短语到基于句法、再到目前的基于神经网络的方法,己经发展到了一个新的阶段。但方法有些机械化,缺少对语言特点的深入探索。基于统计和基于实例的方法都是基于语料库的方法,需要大规模的双语平行语料库作为基础。而现阶段蒙汉双语对齐语料的规模还不够充实。所以采用统计与规则相结合的方式进行机器翻译,是一项值得探索的研究内容。本文主要做了以下几个方面的研究工作。第一,搭建蒙古文句法分析器。首先从实验室人工标注的5000句树库中训练出概率上下文无关文法,之后利用自然语言处理开源工具包NLTK搭建了句法分析器。在此基础上,用规则的方法对部分基本短语进行识别,作为句法分析的预处理,再利用蒙古文名词格和领属附加成分对概率上下文无关文法进行细化,经过实验发现这种方法可以改善句法分析结果的准确率。第二,构建蒙汉翻译知识库。从蒙古文的附加成分入手,找出蒙古文和汉语语法特点的共性与差异,构建了一个包含25类规则的蒙汉句子转换生成规则库。利用GIZA++对大约13万句对的蒙汉语料进行双向词语对齐,随后用半自动的方式进行删减与修正,最终得到一个包含约150万短语的蒙汉短语词典。第三,设计实现了一个统计与规则相结合的蒙汉机器翻译系统。用统计的方法对蒙古文进行句法分析,用基于规则的方法进行句子转换生成,加上用基于规则的方法对蒙古文数词进行预翻译,形成一个完整的蒙汉机器翻译系统。最后,在该机器翻译系统上进行了翻译实验。与基于短语的统计机器翻译方法进行对比后发现,总体上来说该系统的翻译结果虽然没有超越基于统计的机器翻译结果,但对于一些特定结构的句子,其翻译结果明显比统计的方法更好一些。如果能进一步提高句法分析的准确率,统计与规则相结合的蒙汉机器翻译系统的性能也可以进一步提高。