咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于跨语言句向量的平行语料挖掘系统 收藏
基于跨语言句向量的平行语料挖掘系统

基于跨语言句向量的平行语料挖掘系统

作     者:桑佳俊 

作者单位:华中科技大学 

学位级别:硕士

导师姓名:李国徽

授予年度:2020年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:平行语料 机器翻译 句对齐 跨语言句向量 

摘      要:随着近几年深度学习的不断发展,神经网络给机器翻译带来了巨大的提升。而机器翻译所需平行语料的质量越高、分布越广,神经网络就能学习到越多的翻译知识,机器翻译的效果也越好。虽然一些机构或组织致力于提供优质的平行语料,但是在小语种上的平行语料依旧非常匮乏。如何获取更多的平行语料一直都是热门话题。好在互联网拥有海量的数据,很多网站都有多语言版本,其不同语言版本的网页内容一一对应且互译,这些互译的文本可以被挖掘出来作为平行语料使用。平行语料挖掘系统旨在探索如何从互联网资源中挖掘平行语料,开发了平行语料挖掘系统。具体来说,主要工作分为三个方面:首先,提取URL链接中语种标识的特征,从海量URL集合中筛选出具有多语言版本的网页;其次,使用爬虫抓取平行网页中的所有文本信息,并进行细致的清洗工作;最后,基于跨语言句向量对网页文本进行句子对齐,得到最终的平行语料。为了解决以往平行语料挖掘方法只支持个别语种的不足,提出的基于跨语言句向量对齐法能够同时挖掘多个语种的平行语料,并且扩展至更多语种也非常方便,具有普适性。系统以common crawl数据集作为挖掘对象,在16个语种上获得了近1000万条高质量的平行语料。挖掘到的平行语料在机器翻译模型上的表现与开源的OPUS平行语料效果相近,作为数据增量能够提升机器翻译效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分