咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合全局-局部特征和注意力的图像描述方法 收藏

结合全局-局部特征和注意力的图像描述方法

Image Caption Combining Global-Local Features and Attention

作     者:谢琦彬 陈平华 XIE Qibin;CHEN Pinghua

作者机构:广东工业大学计算机学院广州510006 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2022年第58卷第12期

页      面:218-225页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:广东省科技计划(2020B1010010010,2019B101001021) 广东省自然科学基金(2019A1515010700) 

主  题:图像描述 注意力机制 编码器-解码器框架 全局特征 局部特征 

摘      要:为了进一步提高图像描述生成文本的精度,提出一种结合全局-局部特征和注意力机制的图像描述方法。该方法在传统的编码器-解码器模型上进行改进,从整体角度来看,编码器阶段使用残差网络ResNet101提取图像的全局特征和局部特征,以避免对象丢失或对象预测错误问题,在解码器阶段采用嵌入改进后的注意力机制的双向GRU生成文本序列。从局部角度来看,该模型提出的注意力机制是一种独立的循环结构,通过计算图像局部特征向量与语义向量之间的相似度来获取注意力权重,增强图像特征与语义信息之间的映射。在MSCOCO数据集上的实验结果显示,该算法在BLEU、CIDEr、METEOR等评价指标上均获得了不同程度的提升,表明使用该模型生成的描述文本准确度高且细节丰富。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分