基于连续—瞬时特征融合的多模态情感识别
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:王秀美
授予年度:2023年
学科分类:0711[理学-系统科学] 07[理学] 081203[工学-计算机应用技术] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着科技的飞速发展和互联网的广泛普及,人类社会已进入数字时代。人类情感普遍存在于互联网上的各类数据中,如视频、文本、音频等。因此情感分析成为当前大数据研究的重点内容之一,尤其是针对多模态数据的情感内容分析已成为当前机器学习、多媒体数据处理、认知科学等领域的主要研究问题之一。 近年来,深度学习技术凭借其出色的特征表达能力,在计算机视觉、自然语言处理等领域得到了广泛的应用。基于深度学习的多模态情感识别通过对不同模态数据的联合分析,实现了数据的跨模态深度理解。然而,现有的多模态情感识别方法仍面临两个亟待解决的问题:一是情感分析时只关注情感极性或类别,忽略了情感强度的动态变化,导致识别精度不高,即情感强度预测问题;二是不同模态的特征位于不同的特征空间中,难以进行跨模态交互,即模态鸿沟问题。为了有效解决这些问题,本文提出了两种深度多模态情感识别算法: (1)提出了一种基于连续-瞬时特征联合的多模态情感识别方法。针对现有多模态情感分析主要关注情感的长期趋势,对捕捉情感强度变化不足的问题,本文设计了连续情感特征提取器和瞬时情感特征提取器,以更全面地捕获不同的情感状态。首先,连续情感特征提取器获取各模态的长时情感特征;其次,引入了模态间互信息约束,以增强不同模态间全局情感的一致性,并通过对比损失融合不同模态的连续情感特征;再次,瞬时情感特征提取器将输入划分为多个部分,分别提取各部分的细粒度情感信息,并利用注意力机制融合瞬时情感特征,以捕捉情感强度的动态变化;最后,通过注意力机制融合连续情感特征和瞬时情感特征,得到更准确的情感特征表示。该方法利用连续-瞬时特征联合,捕捉情感强度变化,在一定程度上解决了情感强度识别问题,显著提升了多模态情感识别的性能。 (2)提出了一种基于小世界注意力融合的多模态情感识别方法。针对不同模态之间存在模态鸿沟,难以进行跨模态交互的问题,本文提出了一种小世界注意力交互模块,该模块通过关键情感向量压缩文本模态的特征,然后将其传递给视频和音频模态,从而增强这两个模态的特征表示;此外,采用分层逐级交互结构,实现了多层次的信息交互,进一步增强模态间特征的协同表示;最后,通过多模态情感融合层对特征关联。该方法利用人脑认知符合小世界网络的特性,构建跨模态情感特征融合,在一定程度上解决模态鸿沟问题,在提升多模态情感识别性能的同时,提高了模型的鲁棒性。 本文在两个公开数据集上进行了实验,并与一些典型的多模态情感识别方法进行了比较,实验结果验证了本文提出的两种多模态情感识别方法的在情感极性识别和情感强度预测上取得了较好的效果。