基于发音特征的声效相关鲁棒语音识别算法
Robust speech recognition algorithm based on articulatory features for vocal effort variability作者机构:河南理工大学计算机科学与技术学院河南焦作454000
出 版 物:《计算机应用》 (journal of Computer Applications)
年 卷 期:2015年第35卷第1期
页 面:257-261页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 0711[理学-系统科学] 13[艺术学] 07[理学] 08[工学] 081104[工学-模式识别与智能系统] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:国家自然科学基金资助项目(61300124) 河南省基础与前沿技术研究计划资助项目(132300410332) 河南省科技厅科技攻关计划项目(132102210123) 河南省教育厅科技攻关计划项目(13A520321)
摘 要:针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别。基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法 5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%。实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。