咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于扩张卷积和Transformer的视听融合语音分离方法 收藏

基于扩张卷积和Transformer的视听融合语音分离方法

作     者:刘宏清 谢奇洲 赵宇 周翊 

作者机构:重庆邮电大学通信与信息工程学院 

出 版 物:《信号处理》 (Journal of Signal Processing)

年 卷 期:2023年

核心收录:

学科分类:0711[理学-系统科学] 07[理学] 

基  金:重庆市自然科学基金面上项目(CSTB2022NSCQ-MSX0990) 重庆市教委科学技术研究项目(KJQN202000612) 

主  题:语音分离 视听融合 多头自注意力机制 扩张卷积 

摘      要:为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(SI-SNRi)与信噪比改进(SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分