声纹密码识别的关键问题研究
作者单位:中国科学技术大学
学位级别:硕士
导师姓名:郭武;戴礼荣
授予年度:2011年
学科分类:11[军事学] 1105[军事学-军队指挥学] 0839[工学-网络空间安全] 08[工学] 110505[军事学-密码学] 110503[军事学-军事通信学]
主 题:声纹密码 端点检测 频率选择 帧间相关性 隐马尔科夫模型 通用背景模型
摘 要:声纹密码识别是文本相关的话者识别技术在日常生活中的一个具体应用。同时关注人的个性声音特征和语音内容信息的双重特点使得声纹密码识别成为有效的个人身份认证方式。然而在实际应用中,传统的声纹密码识别技术仍然受到了来自环境干扰、密码泄露、数据不足等多方面问题的挑战。如何能够化解这些问题的影响、提升声纹密码识别的性能,是本文重点关注的方面。 传统的识别技术能够很好的辨识不同内容的语句,因此本文的声纹密码识别任务着重于研究极端的密码泄露问题(冒认和注册使用同样的语音内容)。针对以上在实际应用中将会面临到的种种困难,本文从多个方面展开研究,以提升声纹密码识别的可靠性。 鲁棒性的活动语音检测以及特征参数提取,是声纹密码甚至是整个语音识别中的关键问题之一。本文在活动语音检测算法中提出了能量与模型参数相结合的端点检测算法,通过准确判定人声语音片段端点,得到更加有效的人声特征参数,相比基线系统,等错误率可以降低4.4%;另一方面提出基于声学特征的频率选择方法,降低了同样语音文本内容带来的不同的人声音区分度不高的影响,相对于基线系统,等错误率可以降低27.9%。这些新方法的提出较好的提升了前端特征的鲁棒性。 针对声纹密码中文本内容的时序特性,本文引入帧间相关性概念,进一步提出N-gram的最近邻方法,很好地提升了系统识别率,等错误率相对于未采用N-gram方法的基线系统可以降低7.7%。本实验也从另一个角度验证了音素在声纹密码识别中的重要性。 针对声纹密码的训练和测试语音数据长度很短的问题,本文提出了隐马尔科夫-通用背景模型算法。算法使用大量其他人数据先建立话者无关的声韵母HMMs作为通用背景模型,再根据最大后验概率准则,以通用背景模型为基础使用训练语音自适应获得话者模型。该算法一定程度上解决了训练数据不足的问题,等错误率为6.57%,表现出了较好的性能。进一步结合第三章提出的特征频率选择方法,等错误率还可以降低31.3%。