改进深度残差收缩网络的端到端合成语音检测
作者机构:中国人民公安大学信息网络安全学院 公安部网络安全保卫局
出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)
年 卷 期:2024年
核心收录:
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:合成语音检测 深度残差收缩网络 帧注意力 小波阈值函数
摘 要:合成语音的滥用导致了诸多现实问题,研究相应的鉴伪技术对于保护公民人身财产安全、保障社会与国家安全具有重大意义。传统的合成语音检测多采用手工设计特征与后端分类器相结合的方式,前端手工特征设计涉及复杂的先验知识,使用单一手工特征模型检测效果不理想,而进行多特征融合则导致模型参数量较大。同时,目前多数检测方法还存在跨数据集泛化性差的问题。为解决上述问题,提出了一种基于改进深度残差收缩网络的端到端合成语音检测方法。首先融合通道注意力机制重新设计自适应阈值学习模块,提高了阈值学习的精度;其次设计并引入帧注意力机制模块,为不同的帧赋予不同的关注程度,提高了模型的特征选择能力;然后设计并引入了具有两种超参数的改进小波阈值函数,增强阈值化模块抑制无关特征的能力;最后设计了一种基于改进深度残差收缩网络端到端合成语音检测网络,输入原始语音即可判别其是否为合成语音。基于ASVspoof2019 LA数据集的对比实验结果显示,所提方法将基线模型的等错误率与最小串联检测成本函数分别降低了85%与84%。基于ASVspoof2015 LA数据集的跨库测试结果验证了所提方法的泛化性能。