面向真实环境的语音欺骗检测研究和系统实现
作者单位:重庆理工大学
学位级别:硕士
导师姓名:刘万平
授予年度:2024年
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:语音欺骗检测 语音增强 领域自适应神经网络 多任务学习
摘 要:随着人工智能的迅猛发展,尤其是语音合成与转换技术的突破,语音识别系统已广泛渗透至电话银行、智能家居控制及个人助理等多个场合,极大地便利了我们的生活。尽管如此,这些技术的便利性也带来了新的安全风险,其中最为突出的便是语音欺骗攻击。针对这一安全问题,广大学者们已提出众多解决方案,主要分为传统特征工程和基于深度学习的方法。传统特征工程手段,如线性频率倒谱系数和梅尔频率倒谱系数,经常与机器学习或深度学习模型相结合使用。深度学习方法则涵盖了从卷积神经网络、循环神经网络到端到端学习模型的发展。尽管这些方法已经取得显著进展,但仍面临以下挑战:(1)环境噪声显著影响语音欺骗检测系统的性能;(2)面对多变的信道场景时,系统的泛化能力不足;(3)缺乏易于使用的工具,让大众能便捷地检测潜在的欺骗攻击。本文旨在克服这些挑战,并具体展开以下研究工作: (1)为应对环境噪声对语音欺骗检测系统性能的不利影响,提出了一种创新的双模块增强策略,并对Raw Net2神经网络模型进行了精细调优,以实现此策略的最佳效果。该策略精心设计,将语音增强技术与欺骗检测技术相结合,通过在检测流程前置一个降噪步骤,从而优化整个语音信号的处理过程。对比传统的数据增强方法,实验结果清晰展示了双模块增强策略在提升系统抗噪声能力方面的显著优势。 (2)针对语音信号在多变的音频信道中传输时遇到的性能衰减问题,研究探讨了领域自适应神经网络和多任务学习方法的应用。通过在多个信道条件下的实验分析,这些方法被证明能够显著增强模型的适应性和检测精度。实验结果表明,这些技术有效提升了检测模型在应对信道多样性时的性能,证明了其在跨信道欺骗检测应用中的实际价值和可行性。 (3)为让大众能便捷的检测潜在的欺骗攻击,本文设计并实现了一个语音欺骗检测系统。这一系统将研究成果转化为实际应用,为用户提供了简单、直观的操作方式,并能实时进行欺骗检测。系统的后台管理模块赋予管理员对数据和模型的全面控制能力,而用户模块则为用户提供了方便的语音上传和检测服务。系统的响应式设计确保了在各种设备上均能提供一致的优质体验。