基于HMM-RBM的蒙古语语音合成研究
作者单位:内蒙古大学
学位级别:硕士
导师姓名:高光来
授予年度:2016年
主 题:语音合成 隐马尔科夫模型 蒙古语 受限玻尔兹曼机 频谱包络
摘 要:随着计算机越来越普遍的融入到人们的生活和工作中,人们对计算机的要求也越来越高。在人机交互方面,人们已不在满足于借助键盘等外部设备向电脑输入命令的形式,而更希望能够通过语言跟电脑直接交流。这就使语音合成、语音识别等技术逐步成为研究热点。语音合成技术研究的目的是希望创造出能说话的计算机。现阶段,以计算机强大的计算能力和存储能力为基础,语音合成技术得到了快速发展。基于隐马尔科夫模型(Hidden Markov Model, HMM)的语音合成有灵活性高、可移植性强,并且合成出来的语音更“人性化等优点,使之逐步成为主流的合成技术之一。但是使用这种方法合成出来的语音存在比较平滑,细节损失多等缺点。神经网络在语音合成领域的应用为我们解决合成语音自然度不高这一问题提供了思路。蒙古语作为一种民族语言有其自身特点,在专家学者的不断努力下,蒙古语语音合成也在不断发展。本文在隐马尔科夫蒙古语语音合成基础上使用受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)对参数建模,用它代替单高斯分布来表示每一个HMM状态的分布。同时,使用原始的频谱包络直接建模而不是经过处理的梅尔倒谱或线谱对,因为原始频谱包络包含更多细节信息。实验结果表明,使用HMM-RBM合成的蒙古语语音更自然,此结果对蒙古语语音合成性能的优化有重要的意义。