基于字典稀疏优化和聚类分解的语音转换研究
作者单位:苏州大学
学位级别:硕士
导师姓名:俞一彪
授予年度:2021年
摘 要:语音转换是指将一个说话人的个性特征转换为另一个说话人的个性特征,同时保持语义不变。语音转换涉及语音信号预处理、特征参数提取、语音合成等多个方面。对语音转换的研究可以促进说话人识别、语音增强和语音编码等领域的发展。此外,语音转换具有广阔的应用前景,如说话人伪装身份通信、定制个性化声音、智能配音等。本文在非负矩阵分解(Nonnegative Matrix Factorization,NMF)的基础上,提出了一种基于字典稀疏优化的语音转换算法。该方法使用Mel滤波的方式降低语音特征维度,构建低维语音字典,之后利用字典稀疏优化算法从字典中选取高代表性的基矢量,从而降低语音字典的尺寸,提高字典稀疏性,降低转换时的计算成本。实验结果表明,该方法得到的字典尺寸和转换语音失真度均低于传统NMF方法。字典平均占用空间约为传统NMF方法的0.22%,转换语音的平均Mel倒谱失真度相较于传统方法下降了 6.87%。为了进一步改善语音转换系统性能,提高转换效率,本文在以上字典稀疏优化的基础上提出了一种字典聚类分解的语音转换方法,利用改进的K-means算法对稀疏优化后的字典进行聚类,将字典分解为多个子字典,然后将每帧语音特征在单个子字典下进行转换。实验结果表明,该方法进一步降低了语音失真,转换效率优于传统NMF方法和高斯混合模型(Gaussian Mixture Model,GMM)方法。相较传统NMF方法,转换语音的平均Mel倒谱失真度下降了8.02%,平均特征转换所用时长降低了89.44%。实验结果表明,提出的字典稀疏优化算法和聚类分解转换算法相对传统NMF语音转换方法均在一定程度上提升了语音转换的性能,不仅降低了转换语音的谱失真度,而且大幅度地降低了资源开销。