咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于生成对抗网络的图像描述研究 收藏
基于生成对抗网络的图像描述研究

基于生成对抗网络的图像描述研究

作     者:王荣钊 

作者单位:宁夏大学 

学位级别:硕士

导师姓名:刘立波

授予年度:2022年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0811[工学-控制科学与工程] 

主      题:图像描述 生成对抗网络 合作学习 

摘      要:图像描述是计算机视觉应用于视觉理解的一项子任务,其主要目标是将一幅图片翻译为相应文本描述,不仅需要识别图片中的重要对象,对象的属性和位置逻辑关系,还要根据这些信息生成语法和语义正确的句子。与传统视觉任务不同,图像描述涉及计算机视觉与自然语言处理两大研究领域,使其成为一个具有挑战性的工作。现有图像描述方法主要采用“编码器-解码器结构对图像进行编码、解码从而获得对应描述,效果显著但仍存在诸多问题有待解决。本文在图像描述方法中引入生成对抗网络,针对目前研究中存在的问题进行详细分析,提出了基本解决思路,并将其应用到图像描述任务当中,以验证其有效性。具体研究内容如下:(1)调研并分析图像描述相关研究方法。现有方法首先使用卷积神经网络作为编码器提取图像特征向量;然后使用循环神经网络作为解码器,根据提取到的特征来生成图像对应的描述文本;最后使用交叉熵损失函数对模型进行优化。然而这种方法在训练的过程中会存在衡量标准不一致的问题,同时未能充分考虑生成描述包含语义是否准确、充分和合理。本文在深入分析和总结上述问题后,提出了一个对称框架结构,引入生成对抗网络,通过对原始图像进行重建,以重建图像是否包含充足的视觉特征来约束描述的生成,促使网络生成具有更加丰富语义信息的图像描述。此外,图像的重建损失在一定程度上缓解了训练过程中衡量标准不一致的问题。(2)提出一种融合“文本-图像生成的图像描述模型。图像描述任务旨在探索图像与文本之间语义内容的相似性。根据(1)中对图像描述与生成对抗网络的分析与调研,本文在基于“编码器-解码器结构的图像描述模型基础上,引入“文本-图像生成模型根据生成描述重建输入图像,在重建过程中引入自监督的方式优化描述生成过程,同时以交叉熵损失、生成对抗损失与图像重建损失对模型进行训练。通过在MS-COCO数据集上的实验验证了该方法的有效性。(3)在以上研究的基础上,提出一种融合“像素-像素翻译的合作学习方法。现有的许多图像描述方法都是利用预训练的分类模型提取特征用于描述的生成,忽略了不同任务之间特征表示差异。为解决这一问题,本方法旨在利用图像描述和“像素-像素翻译任务之间的相似性来缓解特征表示的差距。具体来说,框架由两个模块组成:1)“像素-像素翻译模块将图像编码为特征表示,然后解码为原始图像。2)自然语言生成模块根据提取到的特征图生成图像描述。因此,在协作学习过程中,特征表示得到了改善。通过在MS-COCO数据集上的实验验证了该方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分