检索结果-南通市图书馆

北京工业大学学报 2025年第1期51卷 42-50页

作者：令晓明陈鸿雁张小玉张真兰州交通大学光电技术与智能控制教育部重点实验室兰州730070 兰州交通大学国家绿色镀膜技术与装备工程技术研究中心兰州730070

为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(sq... 详细信息

为提升说话人识别的特征提取能力,解决在噪声环境下识别率低的问题,提出一种基于残差网络的说话人识别算法——ASP-SERes2Net。首先,采用梅尔语谱图作为神经网络的输入;其次,改进Res2Net网络的残差块,并且在每个残差块后引入压缩激活(squeeze-and-excitation,SE)注意力模块;然后,用注意力统计池化(attention statistics pooling,ASP)代替原来的平均池化;最后,采用附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)对说话人身份进行分类。通过实验,将ASP-SERes2Net算法与时延神经网络(time delay neural network,TDNN)、ResNet34和Res2Net进行对比,ASP-SERes2Net算法的最小检测代价函数(minimum detection cost function,MinDCF)值为0.0401,等误率(equal error rate,EER)为0.52%,明显优于其他3个模型。结果表明,ASP-SERes2Net算法性能更优,适合应用于噪声环境下的说话人识别。

关键词：说话人识别梅尔语谱图 Res2Net 压缩激活(squeeze-and-excitation,SE)注意力模块注意力统计池化(attention statistics pooling,ASP) 附加角裕度的Softmax(additive angular margin Softmax,AAM-Softmax)

来源：

维普期刊数据库评论

在线全文

维普期刊数据库

学校读者我要写书评

暂无评论

基于卷积神经网络的音频分类研究及系统应用

基于卷积神经网络的音频分类研究及系统应用

引用

作者：熊华煜四川大学

学位级别：硕士

在信息技术高速发展的当下,如何高效率地管理和利用生活中所流动的音频信息成为了声音信息管理技术发展的关键,音频分类则是实现这个目标的核心;准确的分类可以为语音识别及检测、场景分析、语音转换与合成等应用提供分类预处理支持,可... 详细信息

在信息技术高速发展的当下,如何高效率地管理和利用生活中所流动的音频信息成为了声音信息管理技术发展的关键,音频分类则是实现这个目标的核心;准确的分类可以为语音识别及检测、场景分析、语音转换与合成等应用提供分类预处理支持,可驱动音频信息处理任务的优化发展。由于现有的基于深度神经网络的音频分类技术多来自图像处理领域,针对音频分类本身的特点模型架构仍存在改进的空间。研究以卷积神经网络作为基线模型,进行了多方面的结构设计与实验以探究更适合音频特征的网络优化方案,同时也通过结合在系统中来验证并拓展了音频分类模块的应用方向。主要工作内容如下:1.研究使用梅尔语谱图作为音频分类的特征,并根据音频特征信息的分布特点建立了频率方向的卷积循环结合神经网络并加入正则化减轻过拟合,其在经过数据增广的Urban Sound8K场景音频数据集上的表现超越了传统的时序向卷积循环结合神经网络。2.为了加强特征信息聚焦能力,研究设计了平行复合注意力机制先将两种基础注意力机制重定义的特征进行通道向的连接,再对梅尔语谱图施加权重作用。通过实验对比得到其分类准确度同样超越了传统的串行复合注意力机制。3.为了验证和拓展音频分类模型的应用,研究将添加了平行注意力的频率向卷积循环结合网络分类模块首先加入到广播音频检测系统中,通过改善系统的信息流向从而增强了其黑广播检测能力;后又将模块的优化思想加入语音转换系统中同时设计交叉式语音合成系统,极大地提高了语音转换的效率。

关键词：音频分类梅尔语谱图深度神经网络频率向卷积循环结合网络平行注意力机制

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

说话人识别中通用背景模型研究及深度学习初探

说话人识别中通用背景模型研究及深度学习初探

引用

作者：梅文星浙江大学

学位级别：硕士

说话人识别是语音信号处理领域重要的研究方向,主要目的是在语音中自动获取说话人身份,在银行、公安系统和智能家居等领域存在广泛应用。当前主流算法基于概率模型,在背景语料充足和信道单一情况下,GMM-UBM模型已经取得良好的性能;但在... 详细信息

说话人识别是语音信号处理领域重要的研究方向,主要目的是在语音中自动获取说话人身份,在银行、公安系统和智能家居等领域存在广泛应用。当前主流算法基于概率模型,在背景语料充足和信道单一情况下,GMM-UBM模型已经取得良好的性能;但在实际应用中,噪声和信道失配使该方法性能急剧下降,i-vector方法的提出一定程度上解决了这些问题。以上算法都以GMM-UBM为基础,在NIST评测中已经取得了很好的效果,但还有一些问题没有得到解决,主要体现为:一方面,通用背景说话人模型的训练需要大量计算资源和数据,使得方法难以在新的环境下快速部署;另一方面,对于通用背景模型训练的理论依据没有进一步的研究,仅通过采集大量不同说话人的数据来尽可能填充特征空间,对数据的采集工作造成了一定的挑战。本文围绕着文本无关说话人确认,以及通用背景说话人模型语料选择问题进行研究,主要工作以及创新如下:第一,分别构建了基于GMM-UBM模型和i-vector/PLDA方法的说话人确认系统。详细介绍了特征的预处理、UBM模型的训练方法、MAP自适应的过程、i-vector全局差异矩阵的提取方法以及基于PLDA的打分方法。探讨了 GMM模型阶数、MFCC特征维度等对于系统性能的影响。实验结果表明,本文构建的系统已经达到主流开源实现的性能。第二,提出了基于GMM超向量聚类的支撑说话人选择算法。支撑说话人选择算法的核心思路是使选择出的说话人语音特征分布差异尽可能大,以覆盖整个特征空间。因此,本文提出用每个背景说话人的数据分别训练GMM模型,用GMM超向量来近似其特征分布,最后用聚类算法(如K-means等)找出相互之间距离最大的说话人集合。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要使用基准说话人语料的8.8%、8.6%和4.3%即可构建出达到基线性能的UBM,性能优于Hansen等人提出的算法,进一步降低了构建UBM所需的训练时间和计算资源。第三,实现了基于GMM托肯配比的背景说话人语料选择算法。UBM数据选择的另一个思路是直接在帧级层面进行筛选,目前主流算法是Hansen等人提出的IFS(Intelligent Feature Selection)算法,该算法通过动态估计背景语料帧之间的欧氏距离的概率分布,能够使所选的帧之间的欧氏距离尽可能大,但是该算法中存在两个超参,实验显示在不同语料库上这两个超参的值都不相同,难以估计最佳值。本文转变思路,从能够体现音素特性的GMM托肯(Token)着手,实现一种基于托肯配比的背景语料选择算法。实验表明,该算法在AISHELL、MASC和TIMIT三个数据集上分别只需要基准说话人语料的18.1%、10.0%和9.1%就能构建达到基线性能的UBM。第四,构建了基于梅尔语谱图和卷积神经网络的说话人鉴别系统。目前主流的说话人确认方法使用的特征都是类似MFCC的手工特征,已经达到较好的识别效果,但是也存在信息过度压缩的问题。针对这个问题,本文提出使用梅尔语谱图直接作为系统的输入,基于卷积神经网络的说话人鉴别系统。实验结果表明,随着训练数据量的增大,本文构建的系统性能逐步接近并超过传统的概率模型。具体而言,在MASC库上,当训练数据与测试数据比值为8:2时,该方法鉴别率(IR)达到90%;当比例达到9:1时,鉴别率达到95.7%,超过GMM-UBM系统的鉴别率。

关键词：说话人识别背景说话人语料选择 GMM托肯梅尔语谱图卷积神经网络

来源：

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于声纹识别的油浸式变压器局部放电故障诊断研究

引用

青海电力 2024年第4期43卷 36-41页

作者：王理丽李子彬李军王生杰李秋阳王子乐杨潇洁国网青海省电力公司电力科学研究院青海西宁810008

油浸式变压器的局部放电会导致局部绝缘的损坏,并随着时间的推移逐渐扩大,最终导致设备的损坏或故障。为有效监测油浸式变压器的局部放电故障,以声纹识别技术为监测手段,对油浸式变压器局部放电产生的声音信号进行采集和处理,搭建局部... 详细信息

油浸式变压器的局部放电会导致局部绝缘的损坏,并随着时间的推移逐渐扩大,最终导致设备的损坏或故障。为有效监测油浸式变压器的局部放电故障,以声纹识别技术为监测手段,对油浸式变压器局部放电产生的声音信号进行采集和处理,搭建局部放电故障诊断模型,实现变压器内部尖端放电、悬浮放电等5种局部放电故障的监测识别,同时以实际声纹故障数据进行模型训练和测试,有效提高识别精度,具有较高的实用价值和应用前景,可为电力系统的安全运行提供有效的技术支持和保障。

关键词：变压器声纹故障诊断注意力机制残差神经网络梅尔语谱图

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

基于3A-RCNN网络的说话人识别研究

引用

电子技术与软件工程 2020年第14期 23-27页

作者：李建文赵统军陕西科技大学电子信息与人工智能学院陕西省西安市710021

本文为了更加有针对性的从语音信息中筛选出说话人的身份信息,减少冗余信息,提出一种将通道维度、时间维度、频率维度三种维度的多重注意力机制嵌入每个残差块末端的模型(3A-RCNN)。结果表明,3A-RCNN模型收敛后平均准确率达到98.0%。相... 详细信息

本文为了更加有针对性的从语音信息中筛选出说话人的身份信息,减少冗余信息,提出一种将通道维度、时间维度、频率维度三种维度的多重注意力机制嵌入每个残差块末端的模型(3A-RCNN)。结果表明,3A-RCNN模型收敛后平均准确率达到98.0%。相比于ResCNN和CNN-LSTM模型准确率分别提升5.48%和2.72%。

关键词：多维度注意力机制残差块末端嵌入说话人识别 3A-RCNN网络梅尔语谱图

来源：

维普期刊数据库

同方期刊数据库评论

在线全文

学校读者我要写书评

暂无评论

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

在线全文

在线全文

请选择保存的检索档案：

请选择收藏分类：

通借通还

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

在线全文

在线全文

在线全文

在线全文

在线全文

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：