基于跨语言句向量的平行语料挖掘系统-南通市图书馆

文献详情 >基于跨语言句向量的平行语料挖掘系统收藏

基于跨语言句向量的平行语料挖掘系统

作者：桑佳俊

作者单位：华中科技大学

学位级别：硕士

导师姓名：李国徽

授予年度：2020年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：平行语料机器翻译句对齐跨语言句向量

摘要：随着近几年深度学习的不断发展,神经网络给机器翻译带来了巨大的提升。而机器翻译所需平行语料的质量越高、分布越广,神经网络就能学习到越多的翻译知识,机器翻译的效果也越好。虽然一些机构或组织致力于提供优质的平行语料,但是在小语种上的平行语料依旧非常匮乏。如何获取更多的平行语料一直都是热门话题。好在互联网拥有海量的数据,很多网站都有多语言版本,其不同语言版本的网页内容一一对应且互译,这些互译的文本可以被挖掘出来作为平行语料使用。平行语料挖掘系统旨在探索如何从互联网资源中挖掘平行语料,开发了平行语料挖掘系统。具体来说,主要工作分为三个方面:首先,提取URL链接中语种标识的特征,从海量URL集合中筛选出具有多语言版本的网页;其次,使用爬虫抓取平行网页中的所有文本信息,并进行细致的清洗工作;最后,基于跨语言句向量对网页文本进行句子对齐,得到最终的平行语料。为了解决以往平行语料挖掘方法只支持个别语种的不足,提出的基于跨语言句向量对齐法能够同时挖掘多个语种的平行语料,并且扩展至更多语种也非常方便,具有普适性。系统以common crawl数据集作为挖掘对象,在16个语种上获得了近1000万条高质量的平行语料。挖掘到的平行语料在机器翻译模型上的表现与开源的OPUS平行语料效果相近,作为数据增量能够提升机器翻译效果。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于跨语言句向量的平行语料挖掘系统

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于跨语言句向量的平行语料挖掘系统

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：