基于跨语言句向量的平行语料挖掘系统
作者单位:华中科技大学
学位级别:硕士
导师姓名:李国徽
授予年度:2020年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着近几年深度学习的不断发展,神经网络给机器翻译带来了巨大的提升。而机器翻译所需平行语料的质量越高、分布越广,神经网络就能学习到越多的翻译知识,机器翻译的效果也越好。虽然一些机构或组织致力于提供优质的平行语料,但是在小语种上的平行语料依旧非常匮乏。如何获取更多的平行语料一直都是热门话题。好在互联网拥有海量的数据,很多网站都有多语言版本,其不同语言版本的网页内容一一对应且互译,这些互译的文本可以被挖掘出来作为平行语料使用。平行语料挖掘系统旨在探索如何从互联网资源中挖掘平行语料,开发了平行语料挖掘系统。具体来说,主要工作分为三个方面:首先,提取URL链接中语种标识的特征,从海量URL集合中筛选出具有多语言版本的网页;其次,使用爬虫抓取平行网页中的所有文本信息,并进行细致的清洗工作;最后,基于跨语言句向量对网页文本进行句子对齐,得到最终的平行语料。为了解决以往平行语料挖掘方法只支持个别语种的不足,提出的基于跨语言句向量对齐法能够同时挖掘多个语种的平行语料,并且扩展至更多语种也非常方便,具有普适性。系统以common crawl数据集作为挖掘对象,在16个语种上获得了近1000万条高质量的平行语料。挖掘到的平行语料在机器翻译模型上的表现与开源的OPUS平行语料效果相近,作为数据增量能够提升机器翻译效果。