咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >应用动态Token的融合特征的持续图像字幕生成 收藏

应用动态Token的融合特征的持续图像字幕生成

作     者:晋嘉利 余璐 

作者机构:天津理工大学计算机科学与工程学院 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2024年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:国家自然科学基金青年项目(62202331) 天津理工大学校级研究生科研创新实践项目资助(YJ2246) 

主  题:图像字幕生成 持续学习 Transformer 融合特征 动态Token 正则化 

摘      要:现如今多数研究表明,基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练。而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。首先在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;同时为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个、且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分