基于音视频特征优化与跨模态Transformer的多模态情感分析
作者机构:中国人民公安大学信息网络安全学院 公安部安全防范技术与风险评估重点实验室
出 版 物:《北京航空航天大学学报》 (Journal of Beijing University of Aeronautics and Astronautics)
年 卷 期:2024年
核心收录:
学科分类:0711[理学-系统科学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:中国人民公安大学安全防范工程双一流创新研究专项(2023SYL08)
主 题:多模态 情感分析 Transformer 自监督学习 音视频特征优化
摘 要:针对多模态情感分析中音视频模态特征质量较差、不同模态信息交互不够充分等问题,提出一种基于音视频特征优化与跨模态Transformer的多模态情感分析方法。首先,设计了一种音视频特征优化机制,通过与文本特征的协同作用,增加音视频特征的情感信息密度,提高音频和视频特征质量。然后,设计了跨模态Transformer结构,以文本为主,实现文本-音频,文本-视频模态的两两充分交互,学习不同模态的一致性信息。此外,引入基于自监督学习策略的标签生成方法,实现单模态情感预测任务,学习每个模态各自的特性。所提方法在CMU-MOSI和CMU-MOSEI等2个公开数据集上进行了大量实验验证与测试,结果表明,所提方法超越当前诸多性能先进的方法,有效提升了多模态情感分析的准确性。