咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于同质中间模态的跨模态行人再识别方法 收藏

基于同质中间模态的跨模态行人再识别方法

A network based on the homogeneous middle modality for cross-modality person re-identification

作     者:罗智徽 胡海涛 马潇峰 程文刚 LUO Zhihui;HU Haitao;MA Xiaofeng;CHENG Wengang

作者机构:华北电力大学控制与计算机工程学院北京102206 复杂能源系统智能计算教育部工程研究中心河北保定071003 

出 版 物:《图学学报》 (Journal of Graphics)

年 卷 期:2024年第45卷第4期

页      面:670-682页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划项目(2023YFB3812100) 教育部教育管理信息中心项目(MOE-CIEM-20240013) 

主  题:行人再识别 跨模态 Transformer 中间模态 特征融合 

摘      要:可见光-红外跨模态行人再识别(VI-Re ID)旨在对不同摄像头采集同一行人的可见光图像和红外图像进行检索与匹配。除了存在可见光行人再识别(Re ID)中因位姿、视角、局部遮挡等造成的模态内差异外,可见光图像和红外图像的模态间差异是VI-ReID的主要挑战。现有方法通常对2种模态的图像进行联合特征学习来缩小模态间差异,忽略了可见光和红外两种模态图像在通道上的本质不同。为此,本文试图从2种模态共同生成一种中间模态来辅助缩小模态间差异,并在标准ViT(vision transformer)网络上通过局部特征和全局特征的融合来优化特征嵌入学习。首先,设计同质中间模态生成器,通过可见光图像和红外图像共同生成同质中间模态(H-modality)图像,将3种模态图像投影到统一的特征空间进行联合约束,从而借助中间模态缩小可见光模态和红外模态间的差异,实现图像级对齐。进一步提出一种基于同质中间模态的Transformer跨模态行人再识别方法,使用ViT提取全局特征,设计一个局部分支以增强网络的局部感知能力。在全局特征提取中,为了增强全局特征的多样性,引入头部多样性模块(head enrich module)使不同的头聚合图像不同的模式。该方法融合全局特征与局部特征,能够提高模型的判别能力,在SYSU-MM01和RegDB数据集上的rank-1/m AP分别达到67.68%/64.37%和86.16%/79.11%,优于现有大多数最前沿的方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分