咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的大词汇量连续语音识别的研究 收藏
基于深度学习的大词汇量连续语音识别的研究

基于深度学习的大词汇量连续语音识别的研究

作     者:刘宇 

作者单位:重庆邮电大学 

学位级别:硕士

导师姓名:罗元

授予年度:2018年

学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:大词汇量连续语音识别 深度学习 语音瓶颈特征 DBLSTM 

摘      要:自动语音识别的主要目的是让机器可以“听懂人们说话的内容,并将语音信号转化为文本信息,能实现人类与机器之间快速、无障碍的交流。近年来,随着深度学习技术的广泛应用,DNN-HMM语音识别架构逐渐取代了传统的GMM-HMM语音识别架构,成为当前大词汇量连续语音识别系统的主流架构。本文以深度学习为基础,从特征提取和声学模型两个方面展开深入研究,具有较高的理论意义和研究价值。首先,阐述了语音识别技术的国内外研究现状,介绍了深度学习理论基础和语音识别关键技术,对基于深度学习的大词汇量连续语音识别系统的整体方案进行了设计。着重分析原始声学特征提取和DNN-HMM声学模型存在的不足之处,明确本论文研究的关键技术是语音特征提取和声学模型优化。其次,针对MFCC、Fbank、瓶颈特征等常用语音特征对语音前后帧相关性信息提取不足导致识别率不高的问题,提出一种基于重叠组套索稀疏深度神经网络的语音瓶颈特征提取改进方法。该方法利用重叠组套索算法对DNN进行改进,并从MFCC声学特征中提取到具有语音相关性信息的语音瓶颈特征。实验结果表明,利用DNN得到的语音瓶颈特征与原始的MFCC相比,语音识别率得到显著提高。然后,为解决DBLSTM中常出现的梯度消失和模型过拟合问题,提出利用Maxout神经元和Dropout正则化算法改进DBLSTM-HMM声学模型。为适应DBLSTM对语音信息每个时间步长的双向依赖性,进一步提出利用CSC-BPTT训练算法训练DBLSTM神经网络。实验结果表明本文改进的DBLSTM-HMM声学模型优于DNN-HMM、RNN-HMM等典型的声学模型,语音识别性能得到较大的提高。最后,利用本文改进的语音特征提取方法和声学模型构建基于DBLSTM-HMM的大词汇量连续语音识别系统,并在THCHS-30中文语料库和自制语料库中进行实验验证和分析。实验结果表明,本文建立的语音识别系统与传统的基于DNN-HMM的语音识别系统相比,WER低7.44%,系统泛化能力更强,语音识别率更高。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分