咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Flatten-CNN的语音带宽扩展研究 收藏

基于Flatten-CNN的语音带宽扩展研究

Speech Bandwidth Extension Based on Flatten-CNN

作     者:杨俊美 雷杨 陈习坤 YANG Junmei;LEI Yang;CHEN Xikun

作者机构:华南理工大学电子与信息学院广东广州510640 

出 版 物:《华南理工大学学报(自然科学版)》 (Journal of South China University of Technology(Natural Science Edition))

年 卷 期:2021年第49卷第11期

页      面:87-94页

核心收录:

学科分类:0710[理学-生物学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0701[理学-数学] 0702[理学-物理学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金资助项目(61871188 61801133) 

主  题:语音带宽扩展 平铺层 时频两轴特征提取 时频损失 网络深度 

摘      要:现有基于深度学习的语音带宽扩展算法中,时域算法语音特征提取不够精确,训练数据量大;频域算法对数功率谱特征提取未重视帧与帧之间的信息关联,频率轴数为奇数,不便于加深网络深度,且忽略时域信息;时频两域算法模型相对复杂。针对以上问题,文中提出了一种基于Flatten-CNN的语音带宽扩展算法。首先,为了充分利用语音特征和减少数据量,文中算法基于频域运行;其次,为了利用对数功率谱时间轴信息,提出了一种改进的编码器,通过引入平铺层,实现对数功率谱时频两轴特征提取;接着,为了加深网络深度,在频率轴数据处理时去掉最后一个点,还原时再补零,使频率轴数为偶数,以利于加深网络深度;最后,为了利用语音信号时域信息,在损失函数中引入时域损失。为验证文中算法的有效性,用TIMIT数据集和VCTK数据集进行了模型的训练和测试,实验结果表明,与当前主流算法相比,文中算法生成的高带宽语音质量得到提高,呈现出了更好的听觉效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分