咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于音视频特征优化与跨模态Transformer的多模态情感... 收藏

基于音视频特征优化与跨模态Transformer的多模态情感分析

作     者:林宜山 左景 卢树华 

作者机构:中国人民公安大学信息网络安全学院 公安部安全防范技术与风险评估重点实验室 

出 版 物:《北京航空航天大学学报》 (Journal of Beijing University of Aeronautics and Astronautics)

年 卷 期:2024年

核心收录:

学科分类:0711[理学-系统科学] 07[理学] 08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:中国人民公安大学安全防范工程双一流创新研究专项(2023SYL08) 

主  题:多模态 情感分析 Transformer 自监督学习 音视频特征优化 

摘      要:针对多模态情感分析中音视频模态特征质量较差、不同模态信息交互不够充分等问题,提出一种基于音视频特征优化与跨模态Transformer的多模态情感分析方法。首先,设计了一种音视频特征优化机制,通过与文本特征的协同作用,增加音视频特征的情感信息密度,提高音频和视频特征质量。然后,设计了跨模态Transformer结构,以文本为主,实现文本-音频,文本-视频模态的两两充分交互,学习不同模态的一致性信息。此外,引入基于自监督学习策略的标签生成方法,实现单模态情感预测任务,学习每个模态各自的特性。所提方法在CMU-MOSI和CMU-MOSEI等2个公开数据集上进行了大量实验验证与测试,结果表明,所提方法超越当前诸多性能先进的方法,有效提升了多模态情感分析的准确性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分