多元视觉-语义联合嵌入的人-物交互检测网络
作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室 青海师范大学藏语智能信息处理及应用国家重点实验室
出 版 物:《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)
年 卷 期:2024年
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(62171043,62202061) 北京市自然科学基金(4232025) 青海省创新平台建设专项(2022-ZJ-T02) 北京市教委科研计划科技一般项目(KM202311232003)
摘 要:人-物交互检测对理解以人为中心的场景任务十分重要, 但其存在因动词的一词多义带来的视觉偏差问题以及图像的层次信息和语义关系难以合理利用的挑战. 为此, 提出多元视觉特征和语言先验联合嵌入的网络, 设计了视觉-语义双分支结构. 在视觉分支上, 将人-物对中人、对象和交互的多元层次关系在层次视觉融合模块中进行丰富的上下文交换, 增加用于关系推理的细粒度的上下文信息; 在语义分支上, 将交互三元组标签中的名词、交互动词和三元组短语联合编码成一个语义汇聚一致性图注意网络, 进行信息传递和多义感知; 最后通过视觉-语义联合嵌入模块计算视觉和语义之间的拟合程度, 得到交互三元组的检测结果. 实验结果表明, 在V-COCO数据集上, 代理平均精度达到70.7%, 角色平均精度达到72.4%; 在HICO-DET数据集上, 默认场景下, 完整类、罕见类和非罕见类的平均精度分别达到35.91%, 33.65%和36.28%; 所提网络优于对比的网络, 在少样本和零样本情况下同样表现出色.