咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于可学习图比率掩码估计的图频域语音增强方法 收藏

基于可学习图比率掩码估计的图频域语音增强方法

作     者:王景润 郭海燕 王婷婷 杨震 

作者机构:南京邮电大学通信与信息工程学院 南京邮电大学通信与网络技术国家地方联合工程研究中心 

出 版 物:《信号处理》 (Journal of Signal Processing)

年 卷 期:2024年

核心收录:

学科分类:0711[理学-系统科学] 07[理学] 

基  金:国家自然科学基金(62071242) 

主  题:深度神经网络 语音增强 图傅里叶变换 

摘      要:在基于深度神经网络(deep neural network, DNN)的时频域语音增强方法中,通常将短时傅里叶变换(short-time Fourier transform , STFT)得到的复数域含噪语音时频谱作为DNN输入,以估计纯净语音的幅度和相位。此类方法由于会涉及对复数的运算,计算复杂度和模型参数量较大。针对此问题,本文利用图信号处理(graph signal processing, GSP)理论,提出了基于DNN的图频域语音增强方法。首先,基于语音信号样点间的位置关系定义实对称的邻接矩阵,将语音信号以无向图形式的图信号进行表示,在此基础上利用对应的图傅里叶变换(graph Fourier transform, GFT)提取实数域的语音图频域特征。由于GFT基与邻接矩阵密切相关,该图频域特征隐式地利用了信号样点间的关系,并且可在实数网络中进行处理。然后,构建基于卷积增强transformer(convolution-augmented transformer, conformer)的网络GFT-conformer,分别从时间维度和图频率维度捕获图频域特征的局部和全局依赖关系,训练基于掩码的目标,以实现语音增强。最后,考虑到语音和噪声在不同图频率分量上的特性差异,提出可学习图比率掩码(learnable graph ratio mask, LGRM),对不同图频率分量的掩码范围分别进行控制,实现对不同图频率分量的精细化去噪,进一步提升GFT-conformer模型的增强性能。在Voice Bank+DEMAND数据集和Deep Xi数据集上的实验结果表明,所提出的方法在五种常用的评价指标上,优于基于DNN的时域和时频域对比方案。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分