基于多模态联合语义感知的零样本目标检测
Zero-shot object detection based on multi-modal joint semantic perception作者机构:北京工业大学信息学部北京100124 可信计算北京市重点实验室北京100124 信息安全等级保护关键技术国家工程实验室北京100124 河北农业大学信息科学与技术学院保定071001 河北省农业大数据重点实验室保定071001
出 版 物:《北京航空航天大学学报》 (Journal of Beijing University of Aeronautics and Astronautics)
年 卷 期:2024年第50卷第2期
页 面:368-375页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(62176009,62106065) 北京市教育委员会科学研究计划(KZ201910005008)
主 题:目标检测 零样本目标检测 多模态 上下文感知 语义优化
摘 要:零样本目标检测借助语义嵌入作为引导信息,将未见过的物体的视觉特征与类别语义嵌入映射到同一空间,根据其在映射空间的距离进行分类,但由于语义信息获取的单一性,视觉信息缺乏可靠表示,易混淆背景信息和未见过对象信息,使得视觉和语义之间很难无差别对齐。基于此,借助视觉上下文模块捕捉视觉特征的上下文信息,并通过语义优化模块对文本上下文和视觉上下文信息进行交互融合,增加视觉表达的多样化,使模型感知到前景的辨别性语义,从而有效地实现零样本目标检测。在MS-COCO的2个划分数据集上进行实验,在零样本目标检测和广义零样本目标检测的准确率和召回率上取得了提升,结果证明了所提方法的有效性。