咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >视听相关的多模态概念检测 收藏

视听相关的多模态概念检测

Audio-Visual Correlated Multimodal Concept Detection

作     者:奠雨洁 金琴 Dian Yujie;Jin Qin

作者机构:中国人民大学信息学院北京100872 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2019年第56卷第5期

页      面:1071-1081页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(61772535) 国家重点研发计划基金项目(2016YFB1001202)~~ 

主  题:多模态信息 语义概念 视频概念检测 视频特征 视频语义理解 

摘      要:随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词-动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分