基于视觉-语言预训练模型的零样本迁移学习方法综述
Survey of Zero-Shot Transfer Learning Methods Based on Vision-Language Pre-Trained Models作者机构:中国矿业大学计算机科学与技术学院江苏徐州221116 矿山数字化教育部工程研究中心江苏徐州221116
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2024年第50卷第10期
页 面:1-15页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61976217,62306320) 江苏省自然科学基金(BK20231063)
主 题:零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
摘 要:近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。