基于混合卷积神经网络模型的音频场景分类
作者单位:内蒙古科技大学
学位级别:硕士
导师姓名:杨立东
授予年度:2020年
学科分类:0810[工学-信息与通信工程] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 081002[工学-信号与信息处理] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:音频场景分类 梅尔声谱图 梅尔频率倒谱系数 卷积神经网络 长短时记忆网络 极度梯度提升
摘 要:音频信号包含很多信息内容,通过音频信号处理技术,人们可以更好感知和理解周围的环境,因此该技术已经被广泛应用于监控、助听器设备和智能终端等领域。音频标签数据相比于图像信息数据采集更简单,占用内存更小,记录的音频标签很容易表达出信息内容。随着互联网技术的快速发展,对于音频场景分类算法的应用研究越来越多。音频场景分类是通过对音频标签信息进行分析,理解音频语义特证,从而达到识别和理解周围环境内容的目的。音频场景分类的系统设计包括特征提取和分类器模型构建两部分。采用的特征提取方式主要有梅尔声谱图和梅尔频率倒谱系数。在相同卷积神经网络结构和模型参数下,分别采用这两种特征进行提取和分类实验。实验结果显示梅尔频率倒谱系数可以更好展现不同类别音频信号本质特征的差异,并且每类音频场景标签的精确率结果都比梅尔声谱图要高。卷积神经网络通过对音频信号的图像特征进行非线性特征映射,通过有效训练来提高模型的性能。由于单一的卷积神经网络分类容易产生过拟合等问题,所以需要对系统神经网络算法进行优化实验,主要引进了长短时记忆网络和极度梯度提升算法。考虑到音频信号具有时序性,在卷积神经网络提取抽象特征之后引入了长短时记忆网络来处理音频信号时间轴上的音频信息,提出了卷积神经网络和长短时记忆网络混合模型,对声谱图进行训练,由最后一层softmax分类器进行分类。而上述神经网络模型分类器直接使用softmax只是对音频信号进行预测,没有对提取的特征进行训练,直接输出分类结果,存在一定的不足,提出了卷积神经网络和极度梯度提升算法混合模型,通过添加极度梯度提升算法模型,代替softmax分类器对特征再次进行训练,预测音频场景信号的分类准确率。极度梯度提升算法是通过树模型对损失函数进行迭代,并优化目标函数,由叶节点输出分类结果。系统模型通过在包含10类的城市音频数据集上进行训练和测试,实验使用准确率、精确率、召回率和F1-Score作为衡量音频场景分类的性能评价指标。实验结果显示基于卷积神经网络和极度梯度提升算法的混合模型分类结果的准确率最高的,并且每类音频场景实验得到的精确率、召回率和F1-Score比其它算法模型效果好,验证了本文所采用的混合模型可以更好的处理音频场景分类任务。