融合语言特征的印度英语-汉语神经机器翻译研究
作者单位:战略支援部队信息工程大学
学位级别:硕士
导师姓名:张克亮
授予年度:2019年
学科分类:0303[法学-社会学] 0501[文学-中国语言文学] 050102[文学-语言学及应用语言学] 03[法学] 030303[法学-人类学] 05[文学]
摘 要:随着互联网以及信息技术的飞速发展,人工智能领域越来越受到人们的重视,吸引了大批的研究人员和开发人员。机器翻译是人工智能领域研究的热点,具有重要的理论意义和极大的应用价值。本文研究旨在探究如何构建印度英语-汉语的双语语料库,如何在通用英语-汉语神经机器翻译模型基础上通过迁移学习训练印度英语-汉语神经机器翻译模型,如何把印度英语的语言特征与神经网络结合起来,如何设计并实现印度英语-汉语的神经机器翻译系统。针对上述问题,本文的主要工作如下:1、社交媒体印度英语语料的获取。印度英语是一种典型的英语变体,受到印度历史、地理、政治、经济、文化等多方面影响而带有显著的区别性特征,尤其是自然口语风格的社交媒体语言,所以我们选取了一些社交媒体网站,通过爬虫程序获取网页上的文本,再把文本处理之后得到语料。2、印度英语语言特征的研究。印度英语与美国英语、英国英语有所不同,有自己的一些语言特征,要把语言特征和神经网络很好地结合起来,就必须深入研究印度英语的语言特征,抓住了印度英语的语言特征,才有可能把语言特征融入到神经网络中,从而改善神经机器翻译模型的性能,提高译文的质量。3、迁移学习的运用。与国际性的美国英语、英国英语相比,印度英语地域、名族、文化特征明显,使用范围有限,关注度不高,很难获取到的大量语料。可以使用少量的语料把已经训练好的模型做迁移学习,以解决印度英语这种低资源语言(或语言变体)机器翻译模型训练中语料贫乏的问题。4、机器翻译系统的设计与实现。本文融合神经网络、迁移学习和语言特征,设计并实现了一个印度英语-汉语的神经机器翻译系统,实验结果表明,其译文的BLEU值比当前主流的神经机器翻译系统有了大幅度提高。