基于对比学习的深度哈希语音检索算法研究
作者单位:西北师范大学
学位级别:硕士
导师姓名:黄羿博
授予年度:2024年
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:语音检索 深度哈希 成对标签 自监督学习 改进的WaveNet
摘 要:在移动互联网和大数据时代,语音数据的检索准确性和效率成为了信息检索领域的关键挑战之一。传统的语音检索方法多依赖于手工提取特征,这不仅导致特征表义性差,还无法充分挖掘语音数据的深层信息。此外,语音数据本身的高维性质进一步加剧了检索过程中的计算复杂度,降低了检索的准确性和效率。为了应对这些挑战,本文提出了两种基于深度哈希的语音检索算法,旨在通过深度学习技术提高语音检索的性能,具体的研究内容如下: 1.本文针对当前基于内容的语音检索方法在手工特征提取不足以准确表征语音内容以及高维语音数据导致检索效果不佳的问题,提出了一种基于成对标签的深度哈希语音检索算法。该算法利用深度学习网络的自主学习能力,以梅尔频率倒谱系数(MFCC)特征为例,对语音数据进行特征提取。利用语音的标签信息,将具有相同内容的语音构造为同一标签的样本对,通过将MFCC特征送入改进的Wave Net神经网络中,学习到更深层次的语音特征表征。采用优化后的损失函数,将似然损失与成对损失相结合,使具有相同内容的样本对在汉明空间中的距离更近,而不同内容的样本对在汉明空间中的距离更远。实验结果表明,与现有的深度哈希语音检索方法相比,该算法生成的深度哈希码在区分性、鲁棒性和检索精度方面具有显著优势。 2.本文提出了一种基于交叉预测学习的自监督深度哈希语音检索算法,旨在解决现有对比学习方法在语音检索任务中的局限性,如依赖大量负样本导致的高计算成本和低训练效率问题。该算法通过改进的Wave Net模型进行语音深度特征提取,并将输出转换为类二进制的哈希编码,实现了每个语音样本的高效映射,以快速进行相似度检索。采用Sinkhorn算法的软聚类分配,避免了依赖大量负样本来拉开不同内容语音之间的距离。为了增强模型对语音变化的鲁棒性,算法采用了包含批归一化和正则化密集层的投影原型网络,确保来自同一语音的不同数据增强版本被投影到相同的原型中。结合自监督学习策略和数据增强方法,本算法在不需要大量标注数据的情况下提升了特征表示的质量,展现出良好的泛化能力和应用前景。实验结果表明,该算法在语音检索任务上表现出色,有效提高了大规模语音数据的处理和检索性能。