基于语义一致性约束与局部-全局感知的多模态3D视觉定位
Semantic consistency constrain and local-global aware multi-modal 3D visual grounding作者机构:四川大学电子信息学院成都610065 中国科学院光电技术研究所中国科学院光束控制重点实验室成都610209 中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室成都610036
出 版 物:《计算机应用研究》 (Application Research of Computers)
年 卷 期:2024年第41卷第7期
页 面:2203-2208页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:3D视觉定位 多模态 特征一致性约束 局部关系 全局位置信息
摘 要:3D多模态数据稀缺,使得传统方法进行监督训练时文本与视觉特征缺乏语义一致性。同时传统方法还易忽视局部关系与全局信息,从而导致性能不佳。针对上述问题,提出了一种基于语义一致性约束与局部-全局感知的多模态3D视觉定位方法。首先,该方法通过蒸馏2D预训练视觉语言模型知识,帮助3D模型提取到点云-文本语义一致性特征;其次设计了局部-全局感知模块,不断补充增强候选目标特征,以更精确匹配目标。在现有的3D视觉定位数据集ScanRefer上进行的实验表明,该方法在Acc@0.25 IoU和Acc@0.5 IoU两个指标上分别达到了50.53%和37.67%,超越了现有大多数3D视觉定位算法,证实了该方法的有效性。