基于自注意力机制的多模态场景分类
Multimodal Scene Classification Based on Self-Attention Mechanism作者机构:南京邮电大学通信与信息工程学院江苏南京210003 比利时根特大学信息技术学院比利时根特9000 北京邮电大学国际学院北京100876 西交利物浦大学先进工程学院江苏苏州215123
出 版 物:《复旦学报(自然科学版)》 (Journal of Fudan University:Natural Science)
年 卷 期:2023年第62卷第1期
页 面:46-52页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200) 国家自然科学基金(61936005,61872199,61872424)
摘 要:针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。