基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
Multi-Head Attention Time Domain Audiovisual Speech Separation Based on Dual-Path Recurrent Network and Conv-TasNet作者机构:哈尔滨理工大学测控技术与通信工程学院哈尔滨150080 哈尔滨工大卫星技术有限公司哈尔滨150023 中国舰船研究设计中心武汉430064
出 版 物:《电子与信息学报》 (Journal of Electronics & Information Technology)
年 卷 期:2024年第46卷第3期
页 面:1005-1012页
核心收录:
学科分类:0711[理学-系统科学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(11804068) 黑龙江省自然科学基金(LH2020F033)
主 题:语音分离 视听融合 跨模态注意力 双路径递归网络 Conv-TasNet
摘 要:目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。