互编码器辅助视频的多模态场景分类
Multimodal scene classification for encoder-assisted videos作者机构:南京邮电大学通信与信息工程学院江苏南京210003 根特大学信息技术学院比利时根特9000 西交利物浦大学智能工程学院江苏苏州215123
出 版 物:《南京邮电大学学报(自然科学版)》 (Journal of Nanjing University of Posts and Telecommunications:Natural Science Edition)
年 卷 期:2023年第43卷第1期
页 面:104-110页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200) 国家自然科学基金(61936005,61872199,61872424)资助项目
主 题:视听场景分类 自注意力机制 多模态学习 编码器 变分自编码器
摘 要:为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。