文献详情 >基于视觉和语言感知增强的图像描述生成模型收藏

基于视觉和语言感知增强的图像描述生成模型

VALRT: Vision and language reinforcement Transformerfor image caption

作者：彭玉青陈姣高萱任梓瑜 PENG Yu-qing;CHEN Jiao;GAO Xuan;REN Zi-yu

作者机构：河北工业大学人工智能与数据科学学院天津300401 河北工业大学大数据计算重点实验室天津300401

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2025年第46卷第1期

页面：223-229页

学科分类：1305[艺术学-设计学（可授艺术学、工学学位）] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]

基　　金：河北省自然科学基金项目(F2021202038)

主　　题：图像描述 Transformer 深度学习注意力机制多模态编码器解码器

摘要：为解决Transformer未充分利用低层编码器视觉信息和解码器中已生成单词信息不断被稀释的问题,提出一种用于图像描述的增强视觉与语言信息的Transformer架构,即VALRT模型。通过在基础Transformer模型上建立一个视觉感知增强模块(VR),以阶梯式方法融合低级和高级视觉编码特征,增强视觉特征表示;构建一个语言感知增强模块(LR),通过增强在预测单词时已生成单词信息的贡献,提升预测单词准确性。为验证模型的有效性,将VALRT模型在MSCOCO基准测试集上进行测试,实验结果表明,VALRT模型拥有更好的性能,能生成更准确、更细粒度的描述。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

FontfaceFontSizeBoldItalicUnderlineBackColorAlignListLinkImgEmot

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于视觉和语言感知增强的图像描述生成模型

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于视觉和语言感知增强的图像描述生成模型

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：