咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分布式麦克风阵列的远场语音识别 收藏
基于分布式麦克风阵列的远场语音识别

基于分布式麦克风阵列的远场语音识别

作     者:卢卓城 

作者单位:深圳大学 

学位级别:硕士

导师姓名:郑能恒

授予年度:2022年

学科分类:0711[理学-系统科学] 07[理学] 

主      题:最优拾音阵列判定 低资源端到端语音识别 深度学习 

摘      要:智能语音交互在人机交互中起着重要的作用。它在人和机器之间建立了高效的通信,并使设备更好服务用户。语音识别作为语音交互的关键技术之一,其作用是让机器能够接收语音并将其转换为相应的文本信息。近场的语音识别技术已经取得很大的进步,在某些特定环境识别率已经超过人类。然而,远场语音识别更符合真实场景应用,它在强混响、强噪声和多说话人等具有挑战性的环境中,仍然面临识别性能不佳的问题。因此,提升远场语音识别性能具有重要的意义。目前远场语音识别大部分基于单麦克风阵列(Microphone Array,MA),单阵列可能存在噪声源和目标声源在同一方向而导致前端增强不佳。另一方面,分布式麦克风阵列在挑战性的环境下具有更有效的拾音策略。在最新一届国际多通道语音分离和识别大赛(Computational Hearing in Multisource Environments,CHi ME),分布式麦克风阵列识别系统使用阵列间和阵列内所有拾音结果作为网络的输入特征,这导致识别网络复杂度较高,影响解码的时间。因此本论文研究一种在室内环境中使用分布式麦克风阵列的更优的声音拾取策略,以及使用所提出的前端拾音策略搭建更高效的端到端语音识别系统。具体工作包括:考虑到复杂声场中分布式麦克风阵列之间拾音质量不同,本文设计一种小规模判定网络可以在所有分布式阵列中判断出最优的拾音麦克风阵列。首先对收集的远场带噪语音提取带有空间信息的声学特征作为判别网络输入特征,将采集到的最优阵列信号作为标签。网络可以学习空间声学特征和最优拾音阵列的关系,实现在不同工作场景下自动判定最优拾音阵列。实验表明,所提算法能准确判定最优拾音麦克风阵列。其次,本文构建了端到端的远场语音识别系统,以评估最优前端拾音策略在语音识别中的优势。我们分析了关键网络参数对识别率和解码复杂度的影响,并据此构建了低资源端到端识别系统。实验表明,与基线相比,所提出的低资源端到端识别系统将词错率从15.4%降低到14.7%,模型大小从117MB降低到28.3 MB,实时因子从0.0626至0.0431,相对提升31.2%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分