生成对抗网络数据扩增下的病理语音识别研究-南通市图书馆

文献详情 >生成对抗网络数据扩增下的病理语音识别研究收藏

生成对抗网络数据扩增下的病理语音识别研究

作者：钱金阳

作者单位：苏州大学

学位级别：硕士

导师姓名：许宜申;陶智

授予年度：2023年

学科分类：0711[理学-系统科学] 07[理学] 1001[医学-基础医学(可授医学、理学学位)] 10[医学]

主题：语音识别病理语音数据扩增生成对抗网络频域损失

摘要：语音由整个发声系统多器官联合运动所产生,任一器官中的微小病变都会导致语音在音量、音调、共振和发音清晰度等方面发生异常而使语音呈现出病理性。近年来,由于人们生活习惯不规律、社会老龄化严重等问题,人群中病理语音的发生概率正在逐渐升高,多种病理语音的识别技术与应用应运而生。然而现有研究基本都基于已有的数据库开展相关研究,受限于采集难度与患者隐私等问题,通用病理语音数据库内样本量相比于正常语音数据库远远不足,这也导致了病理语音分类与识别难度大、效果不佳的问题。数据扩增技术通过生成更多训练数据优化模型性能,已在语音、图像的多个领域取得了应用。因此使用数据扩增技术缓解病理语音数据库中的小数据量问题是进一步提升病理语音识别效果的重要途径。由于传统的病理语音数据扩增方法基于既定规则,扩增的语音在高维空间容易发生聚集从而导致生成语音缺乏多样性。而基于生成对抗网络(Generative Adversarial Networks,GAN)的扩增方式可以直接从随机信号中采样得到所需数据,生成语音更多样。因此本文针对病理语音分类与识别中的小数据量问题,重点研究了基于生成对抗网络的病理语音数据扩增方法,提出了基于频域损失的扩张卷积生成对抗网络(Dilated Convolutional GAN with Frequency Loss,DFGAN),并以所提网络为基础构建了数据扩增下的病理语音识别系统。本文提出的基于频域损失的扩张卷积生成对抗网络综合考虑了现有模型中网络结构与损失函数两方面的缺点。首先从现有模型结构难以捕获语音信号多尺度特征的缺点出发,使用多尺度的扩张率捕获病理语音特征,引入辅助特征指导病理语音生成过程,并结合多种网络训练优化方法实现了随机变量到病理语音信号的直接建模。然后从现有生成对抗网络的损失函数未考虑病理语音频域能量高频迁移的缺点出发,在所提扩张卷积生成对抗网络中设计了自适应频域能量函数捕获不同频带上的能量,以此确定生成语音与原始语音损失计算时的各频带损失所占比例,给出了对抗损失与所提自适应频域损失的联合优化流程。所构建的数据扩增下病理语音识别系统包括基于所提模型的数据扩增模块和后端的识别模块。数据扩增模块采用训练集数据训练所提生成对抗网络模型并生成扩增数据,后端识别模块则采用训练集和扩增集数据训练病理语音分类器和端到端的语音识别模型,交叉验证的测试集识别结果作为最终识别结果。为充分验证所提模型对病理语音分类与识别性能的提升,在四个国际通用的病理语音数据库上进行实验。在正常语音和病理语音间的分类识别实验中,本文所提方法在准确率上平均提高了 4.16%,且对于原始准确率较低的语音改善更明显。在基于端到端模型的病理语音到文字的识别实验中,所提方法综合降低了 2%～6%的词错误率,且对低可懂度病理语音识别效果改善更明显。在与已有数据扩增方法的对比实验分析中,证实了所提方法对小数据量下的病理语音识别研究的贡献。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

生成对抗网络数据扩增下的病理语音识别研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

生成对抗网络数据扩增下的病理语音识别研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：