时频注意力和通道式门控的合成语声检测
作者机构:大连大学先进设计与智能计算省部共建教育部重点实验室 大连理工大学计算机科学与技术学院
出 版 物:《应用声学》 (Journal of Applied Acoustics)
年 卷 期:2025年
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:深度神经网络的发展极大提高了合成语声的相似度和自然度,这给合成语声检测带来了全新挑战。为了充分利用语声数据中的时域和频域信息,并根据输入的语声数据动态地选择通道特征以抑制不相关的通道,提出了一种基于时频注意力和通道式门控的合成语声检测模型。该模型首先利用SincNet架构进行前端特征学习;然后,通过时频注意力模块有效地整合时域与频域信息并突出其关键信息;最后,使用多组潜在空间通道级门控模块解决时频信息融合造成的通道信息冗余问题,并使模型在训练过程中有选择性地从各个通道中学习区分性更高的信息。在ASVspoof2019 LA数据集上的实验结果表明,提出的方法在等错误率和最小串联检测成本函数两个指标上与当前的先进模型相比有一定的竞争力。同时,模型在ASVspoof2015 LA和ASVspoof2021 LA数据集上的表现也证明了其具有良好的泛化能力。