一种用于因果式语音增强的门控循环神经网络
A Gated Recurrent Neural Network for Causal Speech Enhancement作者机构:桂林理工大学信息科学与工程学院广西桂林541006
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2022年第48卷第11期
页 面:77-82页
学科分类:08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程]
基 金:国家自然科学基金(62071135) 广西自然科学基金(2020GXNSFAA159004)。
主 题:门控循环神经网络 固定时延 因果式语音增强 语音质量 语音可懂度
摘 要:传统基于深度学习的语音增强方法为了提高网络对带噪语音的建模能力,通常采用非因果式的网络输入,由此导致了固定时延问题,使得语音增强系统实时性较差。提出一种用于因果式语音增强的门控循环神经网络CGRU,以解决实时语音增强系统中的固定时延问题并提高语音增强性能。为了更好地建模带噪语音信号的相关性,网络单元在计算当前时刻的输出时融合上一时刻的输入与输出。此外,采用线性门控机制来控制信息传输,以缓解网络训练过程中的过拟合问题。考虑到因果式语音增强系统对实时性要求较高,在CGRU网络中采用单门控的结构设计,以降低网络的结构复杂度,提高系统的实时性。实验结果表明,CGRU网络在增强后的语音感知质量、语音客观可懂度、分段信噪比指标上均优于GRU、SRNN、SRU等传统网络结构,在信噪比为0 dB的条件下,CGRU的平均语音感知质量和平均语音客观可懂度分别达到2.4和0.786。