基于Flatten-CNN的语音带宽扩展研究
Speech Bandwidth Extension Based on Flatten-CNN作者机构:华南理工大学电子与信息学院广东广州510640
出 版 物:《华南理工大学学报(自然科学版)》 (Journal of South China University of Technology(Natural Science Edition))
年 卷 期:2021年第49卷第11期
页 面:87-94页
核心收录:
学科分类:0710[理学-生物学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0701[理学-数学] 0702[理学-物理学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金资助项目(61871188 61801133)
主 题:语音带宽扩展 平铺层 时频两轴特征提取 时频损失 网络深度
摘 要:现有基于深度学习的语音带宽扩展算法中,时域算法语音特征提取不够精确,训练数据量大;频域算法对数功率谱特征提取未重视帧与帧之间的信息关联,频率轴数为奇数,不便于加深网络深度,且忽略时域信息;时频两域算法模型相对复杂。针对以上问题,文中提出了一种基于Flatten-CNN的语音带宽扩展算法。首先,为了充分利用语音特征和减少数据量,文中算法基于频域运行;其次,为了利用对数功率谱时间轴信息,提出了一种改进的编码器,通过引入平铺层,实现对数功率谱时频两轴特征提取;接着,为了加深网络深度,在频率轴数据处理时去掉最后一个点,还原时再补零,使频率轴数为偶数,以利于加深网络深度;最后,为了利用语音信号时域信息,在损失函数中引入时域损失。为验证文中算法的有效性,用TIMIT数据集和VCTK数据集进行了模型的训练和测试,实验结果表明,与当前主流算法相比,文中算法生成的高带宽语音质量得到提高,呈现出了更好的听觉效果。