基于深度学习的安多方言到卫藏方言语音转换的研究
作者单位:西北师范大学
学位级别:硕士
导师姓名:甘振业
授予年度:2020年
学科分类:12[管理学] 03[法学] 05[文学] 050107[文学-中国少数民族语言文学(分语族)] 07[理学] 08[工学] 0501[文学-中国语言文学] 0711[理学-系统科学] 0304[法学-民族学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:藏族的不同方言在发音上的巨大差异,造成了不同方言区的人们在面对面交流时存在着巨大的困难。近年来,汉语和英语的语音转换技术取得了很大进步,但是目前只有使用五度字调模型实现的藏语语音转换。该方法只修改基频曲线,且转换后的音质较差。为此,我们提出利用深度学习方法,使用深度神经网络(Deep Neural Network,DNN)分别在平行语料和非平行语料情况下实现藏语的安多方言到卫藏方言语音转换的实验。主要的研究工作与创新如下:1、分析了两种方言的差异性,分别建立了平行语料库和非平行语料库。2、利用平行语料方法实现安多方言到卫藏方言的语音转换。在训练阶段,提取了两种方言语音语料的声学特征参数,利用DNN训练了转换模型。在转换阶段,输入安多方言语音的声学特征参数,经过转换模型可得到转换后的卫藏方言语音的声学特征参数,最后经过声码器合成卫藏方言语音。3、利用非平行语料方法实现安多方言到卫藏方言的语音转换。首先,根据两种方言的发音差异,设计了两种方言的发音映射表。根据发音映射表,设计了识别阶段的发音字典和合成阶段的上下文相关标注。然后利用DNN作为安多方言语音识别和卫藏方言语音合成的网络模型。4、对两种方法转换后的语音的自然度、可懂度以及其与目标语音的相似度进行评测。实验结果表明,本文非平行语料方法比平行语料方法转换后的卫藏方言的语音质量更好。