基于生成对抗网络的图像描述生成模型
作者单位:上海交通大学
学位级别:硕士
导师姓名:黄林鹏
授予年度:2018年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:图像描述生成任务的目标是自动化地生成对图像的描述性语句。近年来,这项任务获得了来自人工智能领域的许多关注,既因为图像描述生成技术具有广阔的应用前景,例如语言教学、盲人导航等,也因为它同时涉及到了计算机视觉和自然语言处理这两个人工智能研究重要领域的关键技术。目前主流的对图像描述生成的研究方法都是基于编码器-解码器架构的神经网络模型,模型的训练方法是最大似然估计,但最大似然估计存在两个缺点:其一是忽略了语言的多样性,它要求模型以最大概率生成与真实描述完全一致的描述,但在自然语言中看起来在结构、用词上完全不同的句子却可以表达相同的意思;其二是暴露偏差,最大似然估计训练时模型每个时刻的输入是来自真实描述的词,但模型在做推断时每个时刻的输入来自模型前一个时刻的输出,这种不一致在时间上积累后会导致生成的句子质量降低。因此,本文设计了一个基于生成对抗网络的图像描述生成模型,可以避免最大似然估计的两个缺点。生成对抗网络中包含生成器和判别器,生成器生成句子来欺骗判别器,判别器判断一个句子是真实描述还是由生成器生成,它们交替训练最终达到收敛。本文设计了一个采用编码器-解码器架构的生成器,在生成器中提出一种新的时变预注意机制让解码器能够更好地理解图像中的关系,时变预注意机制的功能是,让每个图像的局部特征与其它的局部特征进行交流,通过计算注意力得到一个包含关系信息的聚合特征向量,之后解码器将注意到聚合特征向量上;也设计了一个判别器,判别器以循环神经网络为主体编码输入句子和参考句子,将编码向量与图像特征做语义匹配。在训练这个网络时,因为生成器的输出是离散的文本,梯度信号无法通过生成器的输出反向传播给生成器的参数。针对这个问题本文提出一种基于强化学习的训练算法,将生成器看作是一个强化学习中的主体,将判别器的输出看作是环境给的奖励,利用策略梯度方法来估计生成器的梯度,在梯度估计中使用了自批判的基准来减小估计梯度的方差。文中使用公开数据集Microsoft COCO对时变预注意机制和对抗网络都进行了实验,实验结果表明提出的时变预注意机制提高了模型在多项自动化评估指标中的性能,也表明对抗网络能够有效提高生成描述的质量。