基于联合注意力机制的图像语义描述技术
作者单位:湖南大学
学位级别:硕士
导师姓名:袁进
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:近年来,随着人工智能技术的快速发展,图像语义描述方法的性能得到了大幅的改进,尤其是编码器-解码器框架在该任务上的成功应用,解决了传统方法生成句子格式单一、准确度不高的缺点。在编码器-解码器框架中,解码器通过引入注意力机制来挖掘图像的局部区域特征,从而能够更加准确地预测对应的单词。然而,现有的基于注意力机制的图像语义描述方法在训练模型时同一时刻只能使用单个图像的局部信息,不利于视觉对象共性的学习。同时,当训练图像中存在视觉对象遮掩或视觉对象稀缺时,模型难以准确地预测出这些视觉对象。针对上述问题,本论文研究联合的注意力机制来提升图像语义描述中视觉对象的识别性能。相比于当前的图像语义描述算法,本论文从算法理论,算法结构和应用价值三个方面进行了创新,主要概括如下:1.提出了联合注意力机制的结构。相比于传统的单样本注意力机制,该机制在同一个时刻可以探索多个图像局部区域,从而提高视觉对象的学习能力。2.在算法结构上,提出了虚拟LSTM单元。多个虚拟LSTM单元在同一时刻可以接收多个图像区域特征并同时学习,从而更加准确地捕捉到视觉对象的共性。3.在实际应用中,该方法可以解决不同域上的视觉偏差问题,从而在一定程度上解决了图像语义描述任务中的迁移学习问题,节省了样本标记的成本。为了验证本文方法的有效性,本文在MSCOCO和Flickr30K数据集上进行了大量实验。实验结果表明我们的方法在B-1和F-1指标上提升明显,从而证明了联合注意力机制在图像语义描述中提升了视觉对象的识别准确率。另一方面,相比于前沿方法,我们的方法在各项指标上都展现了更好的性能并在一定程度上解决了图像语义描述领域中的迁移学习问题。