哼唱检索中的基音频率提取研究
作者单位:北京邮电大学
学位级别:硕士
导师姓名:刘刚
授予年度:2013年
摘 要:随着人们越来越多的多媒体信息的需求,音频在多媒体资源中占据越来越重要的地位,包括哼唱检索在内的音频检索技术已成为研究的热点。哼唱检索中,由于噪声干扰、哼唱者水平等等因素都会制约了基音频率的精度和鲁棒性。论文针对这些问题进行了研究,主要工作包括: 1.研究了传统的基频提取算法,并进行了对比实验。主要研究了自相关函数法、倒谱法等算法,就不同的哼唱者和环境噪声进行了对比实验。其中哼唱者的音域变化和环境噪声对于算法提取基频的精度影响很大。 2.研究了基于线性预测残差倒谱的基频提取算法,并就清浊音判决和高频置零两方面经行了改进。经过实验验证,结合线性预测分析的倒谱法解决了传统倒谱法的“鲁棒性差的缺点,取得了精度和鲁棒性的一个较好的折中。 针对基于线性预测残差倒谱算法中的清浊音判决,围绕过零率和短时能量两个方面做了研究,论文重点研究了结合阀值判决法和高低频判决发的元音判决法。由基频描述的旋律轮廓通常是人们印象最深刻的,采用旋律轮廓的方法能够有效地解决节奏变化和哼唱者音域的特定变化范围带来的困难,而元音的基频曲线和音乐的旋律轮廓具有同一性,经过实验验证,算法提取基频的精度和鲁棒性都有较好的改善。 3.研究了结合语音增强的基频提取 为了降低噪声对基频提取的影响,采用了语音增强对音频进行预处理,再进行基频提取。传统的语音增强方法是采用低通滤波器滤除高频噪声,但此法在滤除噪声的同时会模糊化音频,从而影响到基频提取的精度。论文从基频错误率和有效基频标准差两方面研究基频提取算法和降噪预处理法搭配选择。对不同搭配组合经行对比实验,验证了优秀的降噪预处理方法要选择相匹配的基频提取算法。