咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于全局时频注意力网络的语音伪造检测 收藏

基于全局时频注意力网络的语音伪造检测

Global and Temporal-Frequency Attention Based Network in Audio Deepfake Detection

作     者:王成龙 易江燕 陶建华 马浩鑫 田正坤 傅睿博 Wang Chenglong;Yi Jiangyan;Tao Jianhua;Ma Haoxin;Tian Zhengkun;Fu Ruibo

作者机构:中国科学技术大学信息科学技术学院合肥230027 模式识别国家重点实验室(中国科学院自动化研究所)北京100080 中国科学院大学人工智能学院北京100049 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2021年第58卷第7期

页      面:1466-1475页

核心收录:

学科分类:0711[理学-系统科学] 0810[工学-信息与通信工程] 0808[工学-电气工程] 07[理学] 08[工学] 0839[工学-网络空间安全] 0835[工学-软件工程] 081201[工学-计算机系统结构] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划项目(2017YFC0820602) 国家自然科学基金项目(61831022,61901473,61771472,61773379) 法国国家信息与自动化研究所与中国科学院联合科研项目(173211KYSB20190049)。 

主  题:语音鉴伪 注意力机制 语音伪造检测 全局注意力 时频注意力 

摘      要:语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分