基于多尺度频率通道注意力融合的声纹库构建方法
Construction method of voiceprint library based on multi-scale frequency-channel attention fusion作者机构:南昌航空大学软件学院南昌330063
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2024年第44卷第8期
页 面:2407-2413页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:声纹库 时延神经网络 多尺度特征提取 频率通道注意力 特征注意力融合
摘 要:为解决声纹识别准确性易受外部因素影响的问题,提出一种基于多尺度频率通道注意力融合时延神经网络(MFCA-TDNN)模型的声纹识别算法。MFCA-TDNN在ECAPA-TDNN(Emphasized Channel Attention Propagation Aggregation Time Delay Neural Network)的基础上作了3点改进,包括:加入了多尺度频率通道注意力前端以从话语中获得高分辨率的特征表示、添加了多尺度通道注意力模块结合局部和全局的特征以融合多尺度信息、嵌入了特征注意力融合模块为多尺度的融合特征加权。这些改进使模型更好地利用多尺度的时频信息,提高识别能力。实验结果表明,与ECAPA-TDNN模型相比,MFCA-TDNN模型等错误率(EER)和最小检测代价函数(minDCF)分别下降5.9%和7.9%;最低的EER可达到3.83%,最低的minDCF可达到0.2202。