咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Kaldi的说话人识别技术研究 收藏
基于Kaldi的说话人识别技术研究

基于Kaldi的说话人识别技术研究

Research on speaker recognition technology based on Kaldi

作     者:岳鲁鹏 

作者单位:兰州理工大学 

学位级别:硕士

导师姓名:赵宏

授予年度:2021年

学科分类:0711[理学-系统科学] 07[理学] 

主      题:说话人识别 注意力机制 多任务学习 Kaldi框架 多特征融合 

摘      要:说话人识别SR(Speaker Recognition)又称声纹识别VR(Voiceprint Recognition),是一种根据语音信息对说话人身份(Identify)进行辨识的生物特征识别技术。语音中包含着非富多彩的信息,既有反映说话内容的共性信息,也有表征说话人个性特征的差异性信息,和语音识别关注共性信息不同,说话人识别则更多关注差异性信息,以此来鉴别说话人的身份。与面部识别等其他识别技术相比,说话人识别优势突出,它不仅操作便捷、成本较低,并且识别精度高,现已在金融、军事等多个行业得到了大力推广和积极应用,应用前景非常可观。本文综合考虑各种声学特征的特性、建模方法以及打分策略等问题,利用Kaldi语音识别工具和信号处理的相关理论和技术,结合不同声学特征和声学模型的优劣势,对待测语音数据进行评测。首先,利用特征提取和特征处理技术,将不同声学特征进行动态融合,互补不同声学特征的差异,减少噪声等杂糅信息对说话人特征的影响,形成新的输入特征。其次,利用深度学习和自然语言处理的相关理论和技术,将特征进行提纯,再次减少噪声等杂糅信息对说话人特征的影响。最后,利用说话人识别中打分策略技术,将特征流入i-vector、x-vector等说话人识别模型,并结合打分函数和激活函数,对待测语音数据进行评测,从而过滤与说话人无关的特征,识别与说话人相关的特征,分阶段实现说话人识别信息的检测。本文的主要研究内容如下:(1)利用基于多特征i-vector的说话人识别算法实现待测语音的第一阶段工作。首先,采用Kaldi语音识别工具在TIMIT语料库上采集不同的声学特征并将其构成一个高维特征向量。然后,通过主成分分析法PCA(Principal Components Analysis)有效地剔除高维特征向量的关联,确保各种特征之间正交化。最后,采用概率线性判别分析PLDA(Probabilistic Linear Discriminant Analysis)进行建模和打分,同时在一定程度上降低空间维度,并采用等错误率EER(Equal Error Ratio)来评价说话人识别系统的综合性能。(2)利用基于多特征和多任务学习的x-vector说话人识别算法实现待测语音的第二阶段工作。首先,采用Kaldi语音识别工具在Vox Celeb1语料库中采集具有互补性的不同尺度的声学特征,并将其同时输入到网络中。然后,在网络内部整合不同互补特征的特性,并将流进网络的特征在全连接的拼接层进行左右拼接。最后,结合注意力机制进行帧权重的计算和线性整流函数Re LU(Rectified Linear Unit)来降低梯度弥散,并采用EER和检测代价函数DCF(Detection Cost Function)来评价说话人识别系统的综合性能。(3)利用基于语谱图和多头注意力机制的说话人识别算法实现说话人识别的最后阶段检测。首先,采用Kaldi语音识别工具在Vox Celeb2语料库中采集语谱图、MFCC两种声学特征,并将二者相继送入TDNN和CNN。然后,设置不同结构的CNN,并利用CNN处理图片的优势对语谱图进行加工。最后,结合多头注意力机制对网络处理后的特征进行加权,并采用EER和DCF来评价说话人识别系统的综合性能。本论文在说话人识别TIMIT评测集验证了第一阶段所提算法的有效性,与单特征i-vector模型相比,EER最佳取得了90.0%的相对降低(8.33%降至0.833%),在区分性别差异的模型中,男性和女性的EER最佳分别取得了85.6%的相对降低(11.67%降至1.38%)和92.3%的相对降低(9.72%降至0.69%)。在说话人识别Vox Celeb1评测集验证了第二阶段所提算法的有效性,与x-vector基线模型相比,添加了注意力机制的统计层模型在EER上最佳取得了24.4%的相对降低(2.01%降至1.52%),在此基础上引入多任务学习并采用拼接层后,在EER上最佳取得了29.0%的相对降低(1.38%降至0.98%)。在说话人识别Vox Celeb2评测集验证了最后阶段所提算法的有效性,与x-vector基线模型相比,采用语谱图和CNN结合的方式在EER上最佳取得了6.69%的相对降低(6.58%降至6.14%),在此基础上引入多头注意力机制后,在EER上最佳取得了26.14%的相对降低(6.58%降至4.36%)。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分