约束条件下的结构化高斯混合模型及非平行语料语音转换
Non-parallel Corpora Voice Conversion Based on Structured Gaussian Mixture Model Under Constraint Conditions作者机构:苏州大学电子信息学院江苏苏州215006
出 版 物:《电子学报》 (Acta Electronica Sinica)
年 卷 期:2016年第44卷第9期
页 面:2282-2288页
核心收录:
基 金:国家自然科学基金(No.61271360) 江苏省自然科学基金(No.BK20131196)
摘 要:提出一种约束条件下的结构化高斯混合模型及非平行语料语音转换方法.从源与目标说话人的原始非平行语料中提取出少量相同音节,在结构化高斯混合模型的训练过程中,利用这些相同音节包含的语义信息及声学特征对应关系对K均值聚类中心进行约束,并在(Expectation Maximum,EM)迭代过程中对语音帧属于模型分量的后验概率进行修正,得到基于约束的结构化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,CSGMM).再利用全局声学结构(Acoustic Universal Structure,AUS)原理对源和目标说话人的约束结构化高斯混合模型的高斯分布进行匹配对准,推导出短时谱转换函数.主观和客观评价实验结果表明,使用该方法得到的转换后语音在谱失真,目标倾向性和语音质量等方面均优于传统的结构化模型语音转换方法,转换语音的平均谱失真仅为0.52,说话人正确识别率达到95.25%,目标语音倾向性指标ABX平均为0.82,性能更加接近于基于平行语料的语音转换方法.