基于视觉-语言多模态感知的目标跟踪方法研究
作者单位:郑州轻工业大学
学位级别:硕士
导师姓名:张焕龙
授予年度:2024年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:目标跟踪 深度学习 视觉-语言融合 多模态感知 Transformer
摘 要:随着计算机硬件性能的提升和机器学习理论的不断进步,视频目标跟踪在无人驾驶、视频监控、人机交互等领域呈现出显著的应用前景和重要价值。深度学习的迅速发展为目标跟踪领域带来了巨大的推动力。然而,任意的跟踪目标和复杂多变的跟踪场景给目标跟踪带来了巨大的挑战。如何建立强大的目标外观模型成为实现鲁棒跟踪的关键因素。传统的目标跟踪方法依赖于单一模态目标视觉深度特征进行研究和建模,但由于目标外观和跟踪场景的多变,在面对相似干扰时往往难以准确定位跟踪目标。因此,本文主要研究如何在单一视觉模态和视觉-语言多模态中挖掘并进一步强化目标的外观模型,从而实现更加鲁棒的跟踪。本文的主要研究内容和创新点如下: (1)提出一种基于视觉单模态自适应干扰感知的在线目标跟踪算法(Adaptive Distractor-Aware for Online Visual Tracking)。首先,为了充分利用背景信息,设计了一个干扰感知模型,选取干扰较小的主导特征通道进行目标表征。此外,为了使目标模型能够很好地处理具有挑战性的场景,提出了一种自适应权重感知策略,该策略可以在跟踪过程中依据目标和背景信息自适应调整特征通道权重。最后,提出了一种动态模板更新策略,以适应目标外观的变化。该策略通过提出的增强置信度评估器对跟踪结果进行评价,该评估器对好的模板具有更大的置信度,引导可靠模板样本到表征模型中,进一步增强模板的自适应性,以增强跟踪器的鲁棒性。在广泛使用的OTB100、TC-128、UAV123、VOT2016和VOT2018等公开目标跟踪数据集上进行测试评估,与最近先进的跟踪器相比,所提出的跟踪器性能更加卓越。实验结果证明本方法提出的跟踪器能够有效利用目标背景信息,在相似物体干扰、背景杂波等挑战下具有较强的适应性。 (2)提出一种基于视觉-语言多模态联合感知单流目标跟踪算法(Vision-Language Multimodal Joint Perception One-stream Object Tracking,VLMP)。首先,设计了一种语言引导的目标感知外观建模策略,引入语言和视觉信息共同进行目标表征,利用稳定的语言特征选择更有效的视觉特征,结合自注意机制对两种多模态信息进行深度对齐和增强,提高目标模型的适应性。其次,为了更好的分类和回归,提出了一种视觉-语言多模态感知Tokens消除模块,该模块利用稳定的语言特征和语言感知过的有效视觉特征,通过自注意力强相似先验计算,提前去除搜索区域内的非目标特征,提高了跟踪速度和准确性。最后,将VLMP统一到一个基于Transformer的视觉-语言单流跟踪框架中,该框架具有更灵活的交互特征学习和关系建模,在LaSOT和TNL2K两个大型的自然语言跟踪数据集上取得了卓越的成绩,展现了出色的跟踪性能。