基于视觉和语言感知增强的图像描述生成模型
VALRT: Vision and language reinforcement Transformerfor image caption作者机构:河北工业大学人工智能与数据科学学院天津300401 河北工业大学大数据计算重点实验室天津300401
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2025年第46卷第1期
页 面:223-229页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
主 题:图像描述 Transformer 深度学习 注意力机制 多模态 编码器 解码器
摘 要:为解决Transformer未充分利用低层编码器视觉信息和解码器中已生成单词信息不断被稀释的问题,提出一种用于图像描述的增强视觉与语言信息的Transformer架构,即VALRT模型。通过在基础Transformer模型上建立一个视觉感知增强模块(VR),以阶梯式方法融合低级和高级视觉编码特征,增强视觉特征表示;构建一个语言感知增强模块(LR),通过增强在预测单词时已生成单词信息的贡献,提升预测单词准确性。为验证模型的有效性,将VALRT模型在MSCOCO基准测试集上进行测试,实验结果表明,VALRT模型拥有更好的性能,能生成更准确、更细粒度的描述。