基于深度学习的图像描述算法研究
作者单位:合肥工业大学
学位级别:硕士
导师姓名:杨依忠
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:图像描述 深度学习 物体检测 注意力机制 逆强化学习 生成对抗网络
摘 要:图像描述任务致力于赋予计算机“看图说话的能力,即在给定输入图片的条件下自动生成符合自然语言表达习惯且真实反应图像内容的文字序列。该任务通常会采用图像识别模型或物体检测模型作为特征提取器或实体检测器来获取供描述模型进一步使用的图像特征。然而,现存的图像描述算法并不能很好地利用上游任务的输出,这往往是由于模型在解决序列到序列生成任务中的长距依赖问题时引入了注意力机制,从而引发“过关注问题,最终导致模型忽略图像中不显著的内容,造成描述模型生成的语句缺失部分图像细节。此外,通过最小化交叉熵目标函数优化模型参数时会引入曝光偏差和标签偏差:曝光偏差是指模型在训练阶段总是输入参考语句中的单词而在测试阶段使用的是生成语句的单词,这会导致误差积累,标签偏差是指测试阶段总是生成训练阶段图像中出现的高频场景或参考语句中出现的高频词汇。同时,交叉熵损失函数也会导致描述语句缺乏多样性和过矫正问题。虽然在图像描述任务中引入强化学习算法能够部分解决曝光偏差和标签偏差的问题,但这类算法通常采用“自动评价指标(如Bleu、Meteor、CIDEr和Rouge)作为奖励值;由于这些指标并不完全与人类专家的评价标准成正相关,进而造成模型虽然强化了指标但并没有提升描述语句质量的现象。本文提出一种带有混合注意力机制的对抗逆强化学习图像描述框架,该框架通过两种设计:混合注意力机制和对抗逆强化学习方法提升模型表现,主要贡献包括:(1)混合注意力机制由视觉自注意力机制和软注意力机制组成,前者用于关注图像中的主要对象,后者用于表征所有被检测出来的目标之间的相互关系,这种设计避免了注意力机制对某个主要对象的过度关注问题,最后将两种注意力机制的输出拼接作为后续模块的输入。(2)在对抗逆强化学习框架中模型自学习的奖励同时由图像特征和语句特征映射得到,“评价指标类奖励仅由语句自身的n-gram匹配度决定,前者能确保语句与图像的对应。(3)在训练阶段,文章将生成语句和参考语句均映射为玻尔兹曼分布,再通过对抗生成网络训练生成器,用以解决曝光偏差、标签偏差及过矫正问题,同时增加语句的多样性。最后,在Microsoft COCO数据集上进行的实验结果表明,本文提出的算法在定性和定量上较当前一些算法有一定的优势。