咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于语言-视觉对比学习的多模态视频行为识别方法 收藏

基于语言-视觉对比学习的多模态视频行为识别方法

Multi-modal Video Action Recognition Method Based on Language-visual Contrastive Learning

作     者:张颖 张冰冰 董微 安峰民 张建新 张强 ZHANG Ying;ZHANG Bing-Bing;DONG Wei;AN Feng-Min;ZHANG Jian-Xin;ZHANG Qiang

作者机构:大连民族大学计算机科学与工程学院大连116600 大连民族大学机器智能与生物计算研究所大连116600 大连理工大学电子信息与电气工程学部大连116024 

出 版 物:《自动化学报》 (Acta Automatica Sinica)

年 卷 期:2024年第50卷第2期

页      面:417-430页

核心收录:

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:国家自然科学基金(61972062) 辽宁省应用基础研究计划(2023JH2/101300191) 国家民委中青年英才培养计划资助 

主  题:视频行为识别 语言-视觉对比学习 多模态模型 时序建模 提示学习 

摘      要:以对比语言-图像预训练(Contrastive language-image pre-training, CLIP)模型为基础,提出一种面向视频行为识别的多模态模型,该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展,可更好地学习多模态视频表达.具体地,在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM),首先,由视频采样帧的类别分词做线性变换得到虚拟帧分词;然后,对其进行基于时序卷积和虚拟帧分词移位的时序建模操作,有效建模视频中的时空变化信息;最后,在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module,VPM),通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达.在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果,验证了该多模态模型的有效性和泛化性.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分