基于GoogLeNet和双层GRU的图像描述
Image description based on GoogLeNet and double-layer GRU作者机构:陕西师范大学计算机科学学院陕西西安710119
出 版 物:《陕西师范大学学报(自然科学版)》 (Journal of Shaanxi Normal University:Natural Science Edition)
年 卷 期:2021年第49卷第1期
页 面:68-73页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:图像描述 GoogLeNet 门限递归单元 适应性动量估计法
摘 要:针对基于卷积神经网络(convolutional neural network,CNN)和长短期记忆网络(long short-term memory,LSTM)的方法存在计算复杂度高、收敛速度慢、训练时间长等问题,本文提出基于GoogLeNet和双层GRU的图像描述模型,在训练阶段采用适应性动量估计法(adaptive moment estimation,Adam)优化算法,加快了整体模型的收敛速率,提高了模型性能。在MSCOCO和Flickr30K两个数据集上的实验结果表明,基于GoogLeNet和双层GRU的图像描述模型实验效果优于目前常用的图像描述模型,生成的句子准确度更高,在多个评价指标上超过了其他常用图像描述模型。