基于多维度注意力机制和复数Conformer的单通道语音增强方法
Monaural speech enhancement method based on multi-dimensional attention mechanism and complex Conformer作者机构:昆明理工大学信息工程与自动化学院昆明650500 昆明理工大学云南省人工智能重点实验室昆明650500 云南省融媒体重点实验室昆明650500
出 版 物:《重庆邮电大学学报(自然科学版)》 (Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition))
年 卷 期:2024年第36卷第2期
页 面:393-403页
基 金:国家自然科学基金项目(62376111,U23A20388,U21B2027) 云南省重点研发计划项目(202303AP140008,202103AA080015) 云南省高新技术产业发展项目(2016) 云南省科技人才与平台计划项目(202105AC160018) 云南省融媒体重点实验室开放课题(220225702)
主 题:深度复数网络 声学特征 关联信息 多维度注意力机制 语音增强
摘 要:为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。