基于深度互学习的多标记零样本分类
Multi-Label Zero-Shot Classification Based on Deep Mutual Learning作者机构:安徽工业大学计算机科学与技术学院安徽马鞍山243032
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2023年第49卷第10期
页 面:64-71页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61806005) 安徽省高校科学研究重点项目(KJ2021A0372,KJ2021A0373) 安徽省高校优秀青年人才支持计划项目(gxyqZD2022032)
摘 要:目前已有大量方案解决零样本图像分类问题,但对多标记零样本图像分类问题的研究很少,在现有的解决方案中,模型在训练时除了利用已标注的数据集和给定的先验知识外,只利用图像区域信息或只利用标签语义信息。基于深度互学习技术,提出一种能同时利用图像区域和标签语义两种信息的解决方法。设计两个子网络,将子网络1用于增强图像视觉特征,通过多头自注意机制关联图像中不同区域的特征信息,得到基于区域的视觉特征表示,再将该特征表示映射到语义空间中,并输出预测概率分布;使子网络2用于融合标签语义信息与图像视觉特征,通过计算标签和图像区域特征的相关性,得到基于语义的视觉特征表示,将特征表示映射到语义空间中输出概率分布。最后引入深度互学习技术,利用两个子网络得到的概率分布为对方提供训练经验以进行互相学习,该过程中子网络在训练自身分类性能的同时也学习对方的训练经验,有效提升多标记零样本图像分类的性能。实验结果表明,所提方法在MS COCO数据集上的F1值相比Deep0Tag方法提升了5.2个百分点。