咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >使用变分自编码器的自回归多说话人中文语音合成 收藏

使用变分自编码器的自回归多说话人中文语音合成

Autoregressive multi-speaker model in Chinese speech synthesis based on variational autoencoder

作     者:蒿晓阳 张鹏远 HAO Xiaoyang;ZHANG Pengvuan

作者机构:中国科学院声学研究所语言声学与内容理解重点实验室北京100190 中国科学院大学北京100049 

出 版 物:《声学学报》 (Acta Acustica)

年 卷 期:2022年第47卷第3期

页      面:405-416页

核心收录:

学科分类:0711[理学-系统科学] 07[理学] 

基  金:国家自然科学基金项目(11590773 11590770)资助 

主  题:语音合成 参数自适应 语音信号 语音数据 声学参数 自回归 多任务学习 均方根误差 

摘      要:常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分