面向社交网络的跨模态情感分析方法研究
作者单位:河北经贸大学
学位级别:硕士
导师姓名:贺萍
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着智能设备的不断更新迭代,越来越多的人们选择在类似于微博、B站和抖音等社交网络平台上以文本、图像、短视频等形式发表个人观点并参与讨论社会热点事件。这些数据中存在大量的用户情感状态信息,有效的收集这些情感信息并加以分析,可以从侧面了解用户的观点、态度与情绪,并为舆论引导、服务推荐等应用提供新的研究角度。跨模态融合的核心任务在于跨模态关系抽取和联合特征学习。相比于多模态融合特征,跨模态融合特征更加全面、准确、精简。目前获取不同模态之间的交互语义依旧是跨模态情感分析的难点。面向社交网络的跨模态情感分析方法研究,主要工作如下: (1)针对面向视频进行情感分析的研究较少,本文结合文本、视频两种模态数据,提出一种基于多层注意力机制的跨模态自适应融合的情感分析模型(Multi-level Attention Cross-modal Self-adaptive Fusion,MACSF)。首先,将提取到的文本与视频特征在多头层次注意(Multi-head Hierarchical Attention,MHA)下跨模态分层融合两次,得到具有交互语义的二次融合特征。其次,将文本特征和二次融合的特征通过自适应跨模态集成得到最终融合特征。最后,将融合特征输入多层感知机和Softmax函数得到情感分析结果。在公开数据集MOSI和MOSEI上实验验证,MACSF模型能够有效获取跨模态之间的交互信息,提升情感分析准确度。 (2)针对非对齐数据序列之间存在长期的时间依赖性,本文提出一种在非对齐数据场景下基于特征增强技术的文本、视频跨模态融合的情感分析模型(Unaligned Scene Based on Feature Enhancement Technology,UA-BFET)。首先,将获取的具有相互作用的跨模态融合特征作用于双向门控循环网络(Bi-directional Gated-Recurrent Unit,Bi-GRU)的下一时间步的单模态特征提取过程中,使渐进增强的单模态特征和跨模态融合特征不断相互补充。其次,将增强后的跨模态融合特征联合抽取出的文本、视频单模态特征通过典型相关分析,输入到全连接层和Softmax函数进行情感分析。在公开非对齐数据集MOSI和MOSEI上验证,发现减少单模态特征的损失有助于提高情感分析的准确度。 (3)针对细粒度跨模态情感分析任务中不同模态间的匹配问题,本文提出一种基于层次跨模态Pre-LN Transformer交互的方面级情感分析模型(Hierarchical Cross-Modal Pre-LN Transformer Interaction,HCMI-PLNT)。该模型首先从图像中提取形容词-名词对获取图像的高层语义特征,其次利用层次跨模态Pre-LN Transformer交互模块捕获方面与文本、方面与图像和文本与图像之间的双向深层交互关系,减少图像与文本多个方面跨模态交互中的错误注意或注意缺失问题。在此基础上,通过设计自适应跨模态集成方法解决图像缺失或图文不匹配的问题。在公开数据集TWITTER-15和TWITTER-17上进行实验,证明HCMI-PLNT模型能够有效增强图文方面级情感分析的效果。