融合序列变分Transformer与对比学习的多样化图像描述生成
Diverse Image Captioning via Conditional Variational Transformer and Introspective Adversarial Learning作者机构:江苏建筑职业技术学院智能制造学院江苏徐州221116 中国矿业大学计算机科学与技术学院江苏徐州221116
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2024年第60卷第21期
页 面:164-171页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:国家自然科学基金(61801198) 江苏省自然科学基金(BK20180174) 江苏省青蓝工程
摘 要:近年来,基于Transformer的图像描述生成模型取得了显著的性能提升。然而,现有方法性能严重依赖预定义的指标或交叉熵损失,难以生成自然而多样的描述语句。引入一种序列变分Transformer模型,用于多样化图像描述生成。通过最大化图像模态内互信息的变分下界,缓解模式坍塌问题。最大化图像-文本多模态间的互信息,将序列变分Transformer模型与对比学习无缝集成,从而进一步增强序列变分编码器的表征学习能力,促进多样化描述的生成。在MSCOCO标准数据集上进行了定量和定性实验,在随机生成100个描述语句时,与当前最优结果相比,准确性指标CIDEr(consensus-based image description evaluation)提升了5.5%,多样性指标Div-2(2-gram diversity)提升了10.5%。