一种多尺度特征融合TDNN的声纹识别方法
A Voiceprint Recognition Method with Multi-scale Feature Fusion in TDNN作者机构:四川大学电子信息学院四川成都610065
出 版 物:《通信技术》 (Communications Technology)
年 卷 期:2024年第57卷第6期
页 面:551-555页
主 题:声纹识别 多尺度频率通道注意力 多尺度通道注意力 多尺度信息融合
摘 要:为了有效提高声纹识别的性能,改进了一种时延神经网络(Time Delay Neural Network,TDNN)架构,通过引入多尺度频率通道注意力(Multi-scale Frequency-channel Attention,MFA)以及多尺度通道注意力模块(Multi-scale Channel Attention Module,MS-CAM),从而增强模型对不同尺度特征的学习能力。MFA模块通过引入频率通道关注机制,有针对性地强化关键信息;MS-CAM模块进一步加强了对多尺度信息的融合,能更好地获得局部与全局的特征。结果表明,所使用的模型在声纹识别测试数据集VOXCELEB1的等错误率和最小检测代价函数2项指标分别为0.96和0.064,与基线系统相比下降幅度分别为8.6%和19%。