咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图像字幕的多模态对齐情感分析模型 收藏

基于图像字幕的多模态对齐情感分析模型

作     者:穰雨辰 马静 

作者机构:南京航空航天大学经济与管理学院 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2024年

核心收录:

学科分类:08[工学] 081203[工学-计算机应用技术] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金面上项目“基于多模态特征融合的网络舆情智能发现与检测及演化研究”(项目编号:72174086)的研究成果之一 

主  题:多模态 情感分析 图像字幕 模态融合 

摘      要:[目的]为了减小模态间差异,加强模态间的关联性,让模型能够精准地把握多模态数据中蕴藏的情感倾向,提升情感分析效果。 [方法]针对文本模态,原始文本数据在补充了图像字幕后使用RoBERTa预训练模型进行文本特征提取。针对图像模态,使用ClipVisionModel提取图像特征。将分别提取出的文本、图像特征通过以多模态Transformer为主的多模态对齐层得到增强的融合特征,最后把多模态融合特征输入多层感知机进行情感识别分类。 [结果]本文提出的模型在MVSA-Multiple数据集上的准确率和F1值分别达到71.78%和68.97%,高于所有基线模型。本文模型相比于基线模型中的最优表现,准确率和F1值分别提高了1.78%和0.07%。 [局限]未能使用更多的数据集检验模型表现。 [结论]本文提出的模型有效的促进了模态间的融合,获得了更好的融合表征,提升了情感分析效果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分