基于深度学习的说话人确认方法研究现状及展望
State of the Art and Prospects of Deep Learning⁃Based Speaker Verification作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001
出 版 物:《数据采集与处理》 (Journal of Data Acquisition and Processing)
年 卷 期:2024年第39卷第5期
页 面:1062-1084页
学科分类:0810[工学-信息与通信工程] 08[工学] 081002[工学-信号与信息处理]
主 题:说话人识别 说话人确认 深度学习 领域不匹配 自监督学习
摘 要:随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。