咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >汉老双语句子相似度计算方法研究 收藏
汉老双语句子相似度计算方法研究

汉老双语句子相似度计算方法研究

作     者:何力 

作者单位:昆明理工大学 

学位级别:硕士

导师姓名:周兰江

授予年度:2019年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:汉语和老挝语 句子相似度计算 老挝语分词 深度典型关联分析 多特征 

摘      要:大规模的汉语和老挝语平行句对语料库是实现汉老双语机器翻译必不可少的资源,汉老双语句子的相似度计算无疑是构建平行语料库最基础、最重要的途径。受老挝语现有资源少、分词准确率低等因素影响,目前仍无很好的方法将汉老双语句子联系起来并计算其相似度,针对这一问题,本文进行了以下方面的研究工作。第一,老挝语分词方法。本文受中文四词位标注分词方法的启发,根据老挝语词语由音节构成的语言特点,使用人工分词语料进行基于音节的四词位标注(BMES),并预训练双向长短期记忆BLSTM(Bidirectional Long Short-Term Memory)神经网络模型。首先将老挝语句子划分成音节并训练成向量,然后把这些向量作为BLSTM神经网络模型的输入预估该音节所属标签,再使用序列推断算法确定其标签,最后实验证明本方法的老挝语分词效果好于以往的分词方法。第二,计算汉老双语句子相似度。受跨语言分布表示学习的启发,本文使用汉老双语对齐句向量预训练深度典型关联分析DeepCCA(Deep Canonical Correlation Analysis)模型联系双语句子并计算其相似度。首先分别向量化表示双语句子,然后使用预训练的DeepCCA模型,将双语句向量映射到新的空间内,最后在新空间内利用映射后句向量的余弦距离来计算汉老双语句子相似度。实验证明本方法能有效计算汉老双语句子相似度。第三,进一步提升计算汉老双语句子相似度的准确率。为进一步提升相似度计算的准确率,本文在深度典型关联分析方法的基础上,抽取汉老双语之间的句长、数字匹配及其句向量之间线性与非线性的相似度特征,使用融合多特征的方法进一步计算汉老双语句子相似度。首先根据对齐语料,抽取汉老双语文本的数字匹配、句子长度、DeepCCA与线性CCA相似度四个特征,然后通过对不同特征进行加权来使计算结果达到最好。实验结果显示,本方法能够更好地计算汉老双语句子之间的相似度。

读者评论 与其他读者分享你的观点