咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于DCNN和BiLSTM的单通道视听融合语音分离方法研究 收藏

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM

作     者:兰朝凤 王顺博 郭小霞 韩玉兰 康守强 LAN Chao-feng;WANG Shun-bo;GUO Xiao-xia;HAN Yu-lan;KANG Shou-qiang

作者机构:哈尔滨理工大学测控技术与通信工程学院黑龙江哈尔滨150080 

出 版 物:《电子学报》 (Acta Electronica Sinica)

年 卷 期:2023年第51卷第4期

页      面:914-921页

核心收录:

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:黑龙江省自然科学基金联合引导项目(No.LH2020F033) 国家自然科学基金青年基金(No.11804068) 

主  题:视听融合 空洞卷积 双向长短时记忆网络 单通道 语音分离 

摘      要:近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分