面向模糊指令的语音识别系统研究
作者单位:电子科技大学
学位级别:硕士
导师姓名:于鸿洋
授予年度:2022年
主 题:语音增强算法 工业噪声 语音识别算法 关键词识别算法 模糊指令
摘 要:随着工业自动化程度的不断加深,工业机器人的语音操控也成为了当今研究的主流领域。但是,在工业机器人的语音交互、语音操作应用中,巨大的噪音会产生在机器人的工作环境之中,而这些噪声会大大影响识别效果。同时,一些工人或工程师在发布语音指令的时候没有严格要求工作手册的要求,在语音指令中带有一些口语化词汇,这些因素都会导致工业机器人的指令识别效果不好。本文为了解决这一问题,提出了一种算法模型,该模型分为两个部分,一部分为语音增强部分,这部分的作用是降低环境噪声对指令识别带来的影响。该部分使用的是Res-Unet网络。与传统的U-Net网络框架相比,该方法在编码器和解码器部分加入了残差网络,增加了网络的收敛性和复杂性,提高了网络的表达能力。通过在工业机器人噪声环境下的语音增强实验验证,该实验以PESQ和STOI为评价标准,我们发现Res-Unet网络的性能要优于其他语音增强方法。该方法在工业噪声环境中可以获得明显的语音增强效果。另一部分是语音关键词识别部分,这一部分的作用是在语音指令中提取关键词,使用关键词完成对机器人行为的操控,不必理解整句指令,这个方法可以有效降低具有模糊语义的语音指令识别效果。该部分使用的是CNN-Bi GRU网络,并且使用CTC作为损失函数。这个方法是通过八种基于CNN-RNN的网络对于同一数据集进行识别精确率对比实验选择出来的,该方法取得了最佳的效果,在Libri Speech语音数据集中,对于特定关键词的识别准确率达到了97%。基于这两种算法模型,模糊指令的识别问题就可以得到很好的解决,能够使得工业机器人能够更好地被语音指令所操纵,这个算法模型对于工业自动化的发展具有一定程度上积极意义。最后,本文设计并实现了一个模糊指令的识别系统,该系统使用麦克风进行实时音频采集,并使用两种算法模型对音频进行处理,得到指令识别结果。经过实验表明,该系统具有较好的识别准确率。