基于域自适应的语音情感识别算法研究
作者单位:烟台大学
学位级别:硕士
导师姓名:宋鹏
授予年度:2024年
摘 要:近年来,随着人工智能的迅速发展,语音情感识别的地位越来越重要,也迎来了新的发展机遇。语音情感识别是模式识别和语音信号处理领域的一个重要研究问题,在许多实际应用领域得到了广泛关注。语音情感识别的目标是从说话人的语音信号中自动识别其情感状态,例如快乐、惊讶、厌恶、悲伤、愤怒和恐惧等。传统的语音情感识别通常要求训练样本和测试样本在特征分布上保持统一,也就是来自同一语音情感数据集,而且需要大量有标签的样本才能训练出令人满意的模型。但是在实际情景中,由于采集环境不同、语言种类不同、说话人角色不同或其他条件的限制,训练样本和测试样本往往无法满足独立同分布的假设,有着较大的差异,从而导致模型识别性能和泛化能力大幅下降。 为了解决上述问题,本文提出了三种基于域自适应的跨域语音情感识别算法,总结如下: (1)针对现有域自适应方法中未能充分利用源域信息、忽略源域和目标域之间类别空间的相关性和不能很好地描述跨领域的相似性的问题,提出了基于动态图引导的可迁移回归算法。首先,该方法利用重定目标学习技术在源域中进行判别性线性回归,可以保证投影矩阵能够提高可分辨性。其次引入了一个自适应最大熵图作为跨域的距离度量。此外,通过在投影矩阵上施加?范数,可以使模型更加具有鲁棒性。 (2)针对现有域自适应方法中过于依赖标签信息、域内特有成分被忽略的问题,提出了无监督迁移成分学习算法。该方法首先学习跨域数据的公共投影,其中对源和目标数据分别执行类似主成分分析(PCA)的策略。同时,设计了一个重构矩阵对齐的策略来确保所有跨域样本共享相似的流形结构,以便学习的公共投影可以保留更多的传递分量。此外,还设计了一种新的自适应结构化图策略,以进一步缩小跨域样本之间的差距。 (3)针对现有域自适应方法中很难选择最优的单源域、很难有效地组合多源域的数据进行跨域识别、过于依赖标签信息、域内特有成分被忽略的问题,提出了多源无监督迁移成分学习算法,该算法是无监督迁移成分学习算法的扩展版本。首先采用类似PCA的策略,并将其应用于多源域,旨在每个域中保持域内个性和域间共性的主要成分。同时,开发了一种简单的对齐策略,以引导跨域样本具有相似的结构,从而保留更多的传递分量。此外,利用自适应权重策略来确定每个源域的贡献。