基于卷积神经网络的图像标注研究
作者单位:湖北工业大学
学位级别:硕士
导师姓名:邵雄凯
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:图像标注问题其本质是视觉到语言的问题,简单的说就是根据图像能够产生描述图像内容的自然语言语句。这对于人类来说是一件十分容易的事情,然而在计算机视觉领域是一项具有挑战性的任务。因为图像标注问题需要在两种不同形式的信息之间进行“翻译。随着深度学习领域的快速发展,将深度卷积网络(Deep Convolutional Neural Network)和循环神经网络(Recurrent Neural Network)结合起来的方法在图像标注问题上取得了巨大的进步。此方法第一次结合了RNN和CNN的特点,并在图像标注上取得很好的成绩,使得基于该方法的对图像标注问题研究迅速地火热起来,现在该领域许多方法,已经达到一个不错的水准,但是这些方法貌似接近人类,其实差距还是很大。本文以百度研究院提出的提multimodal Recurrent Neural Network(即m-RNN)模型为研究对象,主要的研究工作主要由以下两个部分组成:第一个部分,分析该模型为什么可以在图像标注问题上取得成功,并分析该模型在一些图像标注问题上出现非常不好的结果的原因,例如产生的描述语句与图像相关性很差。第二个部分,本文提出使用迁移学习的方法,使用一些著名的卷积神经网络(如vgg,google-net)经过微调(Fine-tuning)来产生图像特征向量,并且使用更好的语义概念来表达图像的特征向量(本文中使用词汇表),然后输入到循环神经网络中,会较之前准确率提升。图像所包含的信息量非常巨大,而且在语义概念上也存在模糊和多义的特点,因此本文主要针对图像标注的特征学习和语义学习等工作上做出改进,实现了图像自动标注,改善了其性能,本文最后基于改进的模型,使用开源的深度学习框架TensorFlow,完成了一个基于输入图像,产生自然描述语言的项目。