咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于模态对齐与音视频极性向量辅助的多模态情感分析 收藏

基于模态对齐与音视频极性向量辅助的多模态情感分析

作     者:李泽龙 刘成恺 生春雷 卢树华 

作者机构:中国人民公安大学信息网络安全学院 公安部安全防范技术与风险评估重点实验室 

出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)

年 卷 期:2025年

核心收录:

学科分类:0810[工学-信息与通信工程] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 081002[工学-信号与信息处理] 

基  金:中央高校基本科研业务费项目(2024JKF10) 

主  题:多模态情感分析 预训练语言模型 Transformer模型 跨模态注意力 

摘      要:针对3种模态特征融合不充分与音视频情感极性表达较弱的问题,提出一种基于模态对齐与音视频极性向量辅助的多模态情感分析方法(Modality Alignment and audio-visual Polarity Vector Auxiliary, MA-PVA)。首先,设计了模态对齐层,利用跨模态注意力机制,对音视频特征中与文本无关的情感信息进行过滤,减少不同模态间特征表达差异,将筛选结果用于增强文本模态,使文本与音视频模态特征充分融合。然后,设计了音视频极性向量辅助任务,用于增强音视频情感极性。上述结构与预训练语言模型进行交互,能够得到更丰富的文本模态特征,以提升最终情感预测效果。所提方法在公开基准数据集CMU-MOSI与CMU-MOSEI上进行了大量实验,结果显示与最优基线方法相比,在CMU-MOSI数据集上二分类准确率分别为88.1%/89.9%,提升了0.6/0.3个百分点,七分类准确率为52.2%,提升了4.8个百分点;在CMU-MOSEI数据集上,二分类准确率分别为85.9%/87.5%,提升了1.2/0.4个百分点,七分类准确率为54.7%,提升了0.2个百分点;表明所提方法超越当前诸多性能先进的方法,有效地提高了情感分类的准确度。

读者评论 与其他读者分享你的观点