基于知识蒸馏的跨模态哈希
Crossmodal knowledge distillation hashing作者机构:南京理工大学计算机科学与工程学院南京210094
出 版 物:《中国科学:技术科学》 (Scientia Sinica(Technologica))
年 卷 期:2022年第52卷第5期
页 面:713-726页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:科技创新2030“新一代人工智能”重大项目(编号:2018AAA0102002) 国家自然科学基金项目(批准号:U20B2064,61925204,62102181) 中国博士后科学基金项目(编号:2020TQ0153,2020M681607)资助。
主 题:哈希 跨模态检索 知识蒸馏 Transformer
摘 要:由于计算和存储的高效性,哈希被广泛地用于大规模跨模态检索.现有跨模态哈希方法分别对单模态数据生成哈希码,忽略了模态内和模态间的上下文信息,无法充分挖掘多媒体数据的潜在关联信息.为此,本文提出一种基于知识蒸馏的跨模态哈希方法.该方法首先利用基于Transformer的教师网络从图像和文本数据中捕获模态内和模态间的上下文信息,进而得到包含丰富视觉-语义关联信息的联合表示,并将联合表示投影到低维的汉明空间以得到判别性较高的二值哈希码.此外,该方法利用知识蒸馏技术将教师网络学到的多模态数据潜在关联信息迁移到学生网络,从而让学生网络生成的哈希码最大程度保留多模态关联信息.该方法在MIRFLICKR-25K,NUS-WIDE和MS-COCO数据集上进行验证,实验结果表明该方法的跨模态检索性能优于目前的主流方法.