联合双粒度图像信息的多模态方面级情感分析
作者机构:内蒙古科技大学数智产业学院 内蒙古科技大学创新创业教育学院 上海大学计算机工程与科学学院 内蒙古科技大学理学院
出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)
年 卷 期:2025年
核心收录:
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(62466045) 内蒙古自然科学基金项目(2023MS06012) 内蒙古自治区直属高校基本科研业务费项目(2024QNJS033) 内蒙古自治区直属高校基本科研业务费项目(2024XKJX019)
主 题:多模态方面级情感分析 双粒度图像信息 多模态交互 多模态融合 跨模态注意力
摘 要:多模态方面级情感分析(Multimodal Aspect-Based Sentiment Analysis,MABSA)作为一种细粒度情感分析技术,旨在通过整合多种模态的特征数据来提高该领域的精度和效果。针对现有的多模态方面级情感分析的研究大多集中在文本和图像模态间的跨模态对齐上,忽略了图像的粗细粒度特征信息对MABSA子任务的潜在贡献。为此,本文提出一种联合双粒度图像信息的多模态方面级情感分析方法(Combining Two Granularity Image Information for Multi-Modal Aspect-Based Sentiment Analysis,CTGI)。具体地,在多模态方面词提取任务中,为增强图像与文本模态的交互,利用ClipCap获取图像的粗粒度特征描述文本,作为图像提示信息,辅助模型预测文本中的方面词及其属性。在多模态方面词情感分类中,为了捕获丰富的图像细粒度情感特征,通过跨模态注意力机制,将带有原始情感语义的图像底层特征与掩码后的文本经过多层深度交互,强化图像特征到文本特征的融合。通过在两个公共的Twitter数据集和Restaurant+数据集上的实验结果表明,CTGI的表现优于当前的基线模型,验证了图像粗细粒度对MABSA子任务不同贡献度的合理性。