基于DCNN和BiLSTM的单通道视听融合语音分离方法研究
A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM作者机构:哈尔滨理工大学测控技术与通信工程学院黑龙江哈尔滨150080
出 版 物:《电子学报》 (Acta Electronica Sinica)
年 卷 期:2023年第51卷第4期
页 面:914-921页
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:黑龙江省自然科学基金联合引导项目(No.LH2020F033) 国家自然科学基金青年基金(No.11804068)
主 题:视听融合 空洞卷积 双向长短时记忆网络 单通道 语音分离
摘 要:近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB.