咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >引入预训练表示混合矢量量化和CTC的语音转换 收藏

引入预训练表示混合矢量量化和CTC的语音转换

Voice Conversion Combining Vector Quantization and CTC Introducing Pre-Trained Representation

作     者:王琳 黄浩 WANG Lin;HUANG Hao

作者机构:新疆大学信息科学与工程学院新疆乌鲁木齐830017 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2024年第50卷第4期

页      面:313-320页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:新疆维吾尔自治区重点实验室开放课题(2020D04047) 

主  题:预训练表示 自监督学习 矢量量化 解耦 联结时序分类 

摘      要:预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型。将预训练模型提取的SSPR作为端到端模型的输入,用于提高单次语音转换质量。如何有效地解耦内容表示和说话人表示成为语音转换中的关键问题。使用SSPR作为初步的内容信息,采用VQ从语音中解耦内容和说话人表示。然而,仅使用VQ只能将内容信息离散化,很难将纯粹的内容表示从语音中分离出来,为了进一步消除内容信息中说话人的不变信息,提出CTC损失指导内容编码器。CTC不仅作为辅助网络加快模型收敛,同时其额外的文本监督可以与VQ联合优化,实现性能互补,学习纯内容表示。说话人表示采用风格嵌入学习,2种表示作为系统的输入进行语音转换。在开源的CMU数据集和VCTK语料库对所提的方法进行评估,实验结果表明,该方法在客观上的梅尔倒谱失真(MCD)达到8.896 d B,在主观上的语音自然度平均意见分数(MOS)和说话人相似度MOS分别为3.29和3.22,均优于基线模型,此方法在语音转换的质量和说话人相似度上能够获得最佳性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分