咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >说话人身份识别深度网络中的聚合模型研究 收藏

说话人身份识别深度网络中的聚合模型研究

Research on aggregation model in speaker recognition deep network

作     者:邓飞 邓力洪 胡文艺 张葛祥 杨强 Deng Fei;Deng Lihong;Hu Wenyi;Zhang Gexiang;Yang Qiang

作者机构:成都理工大学计算机与网络安全学院(牛津布鲁克斯学院)成都610059 成都理工大学人工智能研究中心成都610059 成都信息工程大学控制工程学院成都610059 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2022年第39卷第3期

页      面:721-725页

学科分类:08[工学] 0804[工学-仪器科学与技术] 

基  金:国家自然科学基金资助项目(61972324) 四川省科技计划资助项目(2021YFS0313,2021YFG0133)。 

主  题:说话人识别 聚合模型 注意力机制 

摘      要:说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分