融合多注意力机制的图像语义描述算法研究
作者单位:西安工程大学
学位级别:硕士
导师姓名:张团善;魏宪
授予年度:2021年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:图像语义描述任务关联到机器学习的两大研究方向:视觉方向和机器翻译方向,近年来一直是备受关注的研究任务。伴随着深度学习的快速发展,越来越多的科研人员开始重视图像语义描述任务,逐渐成为研究热点。给定一幅图像,根据图像内容算法可以自动生成描述图像的自然语言。该任务在图文互搜、图像辅助理解等领域具有较强的实际应用价值。近年来,对于如何高效使用图像特征以生成更准确的语义描述成为图像语义描述任务的主要研究方向。本文在当前图像语义描述方法的基础上,在编码器部分引入空间注意力,通道注意力以及自注意力,在解码器部分引入自适应注意力,分别从编码器(encoder)和解码器(decoder)进行了改进研究。首先,本文在现有的图像语义描述编码器中引入空间注意力和通道注意力,提出了融合空间注意力和通道注意力的图像语义描述模型。在生成当前单词时通道注意力机制用来确定图像中的目标对象。不同的通道有不同的激活区域,这意味着在预测一个单词时,只有部分通道会被激活。空间注意力机制用来确定图像目标的位置信息。本文引入了卷积空间注意力机制,模型保留了图像的空间结构,同时,通过更大的感受野来精确地确定每一步应该关注的区域,使得模型关注主要信息,忽略次要信息。本节融合空间注意力机制和通道注意力机制,通过两种不同的维度采用注意力机制,生成具有注意力机制权重的图像特征,进而提高编码器提取特征能力,通过MSCOCO数据集的实验数据对比,融合空间注意力机制和通道注意力机制模型在BLEU,METOR,ROUGE和CIDEr评价指标上均有较大幅度的提升。其次,本文在编码器中引入位置自注意力和通道自注意力,提出了融合位置自注意力和通道自注意力的图像语义描述模型。图像语义描述模型的图像特征通过经典的深度卷积神经网络提取而来,存在着全局特征利用不充分。本节引入自注意力机制自适应的整合局部特征和全局依赖。其中,位置自注意力利用位置的加权求和的方式来聚集每一个位置的特征;通道自注意力使用通道特征选择性的突出某个特征图;融合位置自注意力机制和通道自注意力机制,生成具有自注意力机制权重的图像特征,提高模型的表达能力。通过MSCOCO数据集的实验数据对比,融合位置自注意力和通道自注意力的图像语义描述模型的实验效果相对于经典的算法有显著的提高。最后,本文在decoder部分中融合自适应注意力。解码器在图像语义描述模型中扮演着至关重要的作用,现有的解码器大多数采用长短时记忆网络,由于LSTM网络存在长期记忆存储能力有限的问题。为了更好的解决记忆存储有限的问题,本节引入了自适应注意力机制,其中,自适应注意力机制帮助模型在生成非视觉单词时更多的关注文本信息,在生成视觉单词时更多的关注图像信息,从而提升图像语义描述模型的准确性。通过MSCOCO数据集的实验数据对比,自适应注意力的图像语义描述模型的实验效果相对于传统的算法有很大的提高。图32幅,表7个,参考文献70篇。