基于临界频带的交互性双支路单通道语音增强模型
Interactive Dual‑Branch Monaural Speech Enhancement Model Based on Critical Frequency Band作者机构:中国科学技术大学电子工程与信息科学系合肥230022 语音及语言信息处理国家工程研究中心合肥230022
出 版 物:《数据采集与处理》 (Journal of Data Acquisition and Processing)
年 卷 期:2023年第38卷第2期
页 面:262-273页
学科分类:0711[理学-系统科学] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对目前主流的双支路单通道语音增强方法只关注全频带信息而忽略子频带信息这一问题,设计了一种基于人耳临界频带的交互性双支路模型。主要做法为,在复数谱支路上实施模拟人耳临界频带的划分方法对信号进行分频带处理,提取子带信息;在幅度补偿支路上直接对信号的全频带进行处理,提取全频带信息。复数谱支路负责初步恢复干净语音的幅度和相位,同时,该支路上学到的子带中间特征会被特定的模块传递给幅度补偿支路进行补偿;幅度补偿支路上的输出会对复数谱支路上输出的幅度做进一步的补偿,达到恢复干净语音频谱的目的。实验结果表明,提出的模型在恢复语音质量和可懂度方面优于其他先进的单通道语音增强模型。