基于对比学习的深度哈希语音检索算法研究-南通市图书馆

文献详情 >基于对比学习的深度哈希语音检索算法研究收藏

基于对比学习的深度哈希语音检索算法研究

学位级别：硕士

导师姓名：黄羿博

授予年度：2024年

学科分类：0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：语音检索深度哈希成对标签自监督学习改进的WaveNet

摘要：在移动互联网和大数据时代,语音数据的检索准确性和效率成为了信息检索领域的关键挑战之一。传统的语音检索方法多依赖于手工提取特征,这不仅导致特征表义性差,还无法充分挖掘语音数据的深层信息。此外,语音数据本身的高维性质进一步加剧了检索过程中的计算复杂度,降低了检索的准确性和效率。为了应对这些挑战,本文提出了两种基于深度哈希的语音检索算法,旨在通过深度学习技术提高语音检索的性能,具体的研究内容如下: 1.本文针对当前基于内容的语音检索方法在手工特征提取不足以准确表征语音内容以及高维语音数据导致检索效果不佳的问题,提出了一种基于成对标签的深度哈希语音检索算法。该算法利用深度学习网络的自主学习能力,以梅尔频率倒谱系数(MFCC)特征为例,对语音数据进行特征提取。利用语音的标签信息,将具有相同内容的语音构造为同一标签的样本对,通过将MFCC特征送入改进的Wave Net神经网络中,学习到更深层次的语音特征表征。采用优化后的损失函数,将似然损失与成对损失相结合,使具有相同内容的样本对在汉明空间中的距离更近,而不同内容的样本对在汉明空间中的距离更远。实验结果表明,与现有的深度哈希语音检索方法相比,该算法生成的深度哈希码在区分性、鲁棒性和检索精度方面具有显著优势。 2.本文提出了一种基于交叉预测学习的自监督深度哈希语音检索算法,旨在解决现有对比学习方法在语音检索任务中的局限性,如依赖大量负样本导致的高计算成本和低训练效率问题。该算法通过改进的Wave Net模型进行语音深度特征提取,并将输出转换为类二进制的哈希编码,实现了每个语音样本的高效映射,以快速进行相似度检索。采用Sinkhorn算法的软聚类分配,避免了依赖大量负样本来拉开不同内容语音之间的距离。为了增强模型对语音变化的鲁棒性,算法采用了包含批归一化和正则化密集层的投影原型网络,确保来自同一语音的不同数据增强版本被投影到相同的原型中。结合自监督学习策略和数据增强方法,本算法在不需要大量标注数据的情况下提升了特征表示的质量,展现出良好的泛化能力和应用前景。实验结果表明,该算法在语音检索任务上表现出色,有效提高了大规模语音数据的处理和检索性能。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于对比学习的深度哈希语音检索算法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于对比学习的深度哈希语音检索算法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：