咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >生成对抗网络数据扩增下的病理语音识别研究 收藏
生成对抗网络数据扩增下的病理语音识别研究

生成对抗网络数据扩增下的病理语音识别研究

作     者:钱金阳 

作者单位:苏州大学 

学位级别:硕士

导师姓名:许宜申;陶智

授予年度:2023年

学科分类:0711[理学-系统科学] 07[理学] 1001[医学-基础医学(可授医学、理学学位)] 10[医学] 

主      题:语音识别 病理语音 数据扩增 生成对抗网络 频域损失 

摘      要:语音由整个发声系统多器官联合运动所产生,任一器官中的微小病变都会导致语音在音量、音调、共振和发音清晰度等方面发生异常而使语音呈现出病理性。近年来,由于人们生活习惯不规律、社会老龄化严重等问题,人群中病理语音的发生概率正在逐渐升高,多种病理语音的识别技术与应用应运而生。然而现有研究基本都基于已有的数据库开展相关研究,受限于采集难度与患者隐私等问题,通用病理语音数据库内样本量相比于正常语音数据库远远不足,这也导致了病理语音分类与识别难度大、效果不佳的问题。数据扩增技术通过生成更多训练数据优化模型性能,已在语音、图像的多个领域取得了应用。因此使用数据扩增技术缓解病理语音数据库中的小数据量问题是进一步提升病理语音识别效果的重要途径。由于传统的病理语音数据扩增方法基于既定规则,扩增的语音在高维空间容易发生聚集从而导致生成语音缺乏多样性。而基于生成对抗网络(Generative Adversarial Networks,GAN)的扩增方式可以直接从随机信号中采样得到所需数据,生成语音更多样。因此本文针对病理语音分类与识别中的小数据量问题,重点研究了基于生成对抗网络的病理语音数据扩增方法,提出了基于频域损失的扩张卷积生成对抗网络(Dilated Convolutional GAN with Frequency Loss,DFGAN),并以所提网络为基础构建了数据扩增下的病理语音识别系统。本文提出的基于频域损失的扩张卷积生成对抗网络综合考虑了现有模型中网络结构与损失函数两方面的缺点。首先从现有模型结构难以捕获语音信号多尺度特征的缺点出发,使用多尺度的扩张率捕获病理语音特征,引入辅助特征指导病理语音生成过程,并结合多种网络训练优化方法实现了随机变量到病理语音信号的直接建模。然后从现有生成对抗网络的损失函数未考虑病理语音频域能量高频迁移的缺点出发,在所提扩张卷积生成对抗网络中设计了自适应频域能量函数捕获不同频带上的能量,以此确定生成语音与原始语音损失计算时的各频带损失所占比例,给出了对抗损失与所提自适应频域损失的联合优化流程。所构建的数据扩增下病理语音识别系统包括基于所提模型的数据扩增模块和后端的识别模块。数据扩增模块采用训练集数据训练所提生成对抗网络模型并生成扩增数据,后端识别模块则采用训练集和扩增集数据训练病理语音分类器和端到端的语音识别模型,交叉验证的测试集识别结果作为最终识别结果。为充分验证所提模型对病理语音分类与识别性能的提升,在四个国际通用的病理语音数据库上进行实验。在正常语音和病理语音间的分类识别实验中,本文所提方法在准确率上平均提高了 4.16%,且对于原始准确率较低的语音改善更明显。在基于端到端模型的病理语音到文字的识别实验中,所提方法综合降低了 2%~6%的词错误率,且对低可懂度病理语音识别效果改善更明显。在与已有数据扩增方法的对比实验分析中,证实了所提方法对小数据量下的病理语音识别研究的贡献。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分