基于双路径多模态交互的一阶段视觉定位模型
Dual-path network with multilevel interaction for one-stage visual grounding作者机构:华东师范大学计算机科学与技术学院上海200062
出 版 物:《华东师范大学学报(自然科学版)》 (Journal of East China Normal University(Natural Science))
年 卷 期:2024年第2期
页 面:65-75页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:现有的一阶段方法分别提取视觉特征映射和文本特征,并进行多模态推理来预测被引用对象的边界框.这些方法存在以下两个缺点:首先,预先训练的视觉特征提取器在视觉特征中引入了与文本无关的视觉信号,阻碍了多模态交互;其次,现有模型的推理过程缺乏对语言建模的可视化指导.基于上述缺点,现有的一阶段方法的推理能力是有限的.提出了一种提取文本相关视觉特征映射的低阶交互和一种整合视觉特征的高阶交互来指导语言建模,并进一步对视觉特征进行多步推理.在此基础上,提出了一种新的网络结构,称为双路径多级交互网络.在5种常用的视觉定位数据集上进行了实验,结果表明该方法具有较好的性能和实时性.