文献详情 >应用动态Token的融合特征的持续图像字幕生成收藏

应用动态Token的融合特征的持续图像字幕生成

作者：晋嘉利余璐

作者机构：天津理工大学计算机科学与工程学院

出版物：《计算机工程与应用》 (Computer Engineering and Applications)

年卷期：2024年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

基　　金：国家自然科学基金青年项目(62202331) 天津理工大学校级研究生科研创新实践项目资助(YJ2246)

主　　题：图像字幕生成持续学习 Transformer 融合特征动态Token 正则化

摘要：现如今多数研究表明，基于自注意力的结构（如Transformer）在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练。而真实世界中的数据分布大多是非独立同分布的数据流，这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少，缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。首先在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合，并对融合特征进行正则化计算；同时为每一个子任务定义一个Token，Token将随着子任务的切换而变化，这种Token即为动态Token，相比于整个训练阶段只定义一个、且被所有子任务共用的静态Token而言，动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征，并在每个子任务训练结束后保存其对应的Token，以保持模型对旧任务的记忆和表达能力，减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例，所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方期刊数据库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

应用动态Token的融合特征的持续图像字幕生成

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

应用动态Token的融合特征的持续图像字幕生成

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：