咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于视觉语言提示学习的少样本图像分类方法 收藏

基于视觉语言提示学习的少样本图像分类方法

Few-Shot Image Classification Method Based on Visual Language Prompt Learning

作     者:李宝安 王欣宇 滕尚志 吕学强 LI Baoan;WANG Xinyu;TENG Shangzhi;LYU Xueqiang

作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室北京100101 

出 版 物:《北京邮电大学学报》 (Journal of Beijing University of Posts and Telecommunications)

年 卷 期:2024年第47卷第2期

页      面:11-17页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(62171043,62202061) 北京市自然科学基金项目(4212020) 国家语言文字工作委员会科研项目(ZDI145-10) 

主  题:提示学习 视觉语言模型 少样本学习 图像分类 预训练模型 

摘      要:为了提高少样本图像分类的性能和泛化能力,充分利用大规模视觉语言预训练模型,提出了一种高效处理少样本图像分类问题的方法。首先,在文本编码部分,整合多个可学习的文本提示,充分挖掘图像类别标签在提示语句中不同位置对模型泛化性能的影响;其次,在图像编码部分,引入可学习的视觉提示,使图像预训练参数能更好地表征少样本图像;最后,在图像和文本特征编码器后添加特征适配器,并在图像分类数据集上微调网络,以提升网络在少样本图像分类数据集上的性能。在10个公开数据集上进行了大量实验,结果表明,相较于现有方法,所提方法在单样本分类的平均准确度上提高了2.9%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分