咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于关联性挖掘的跨模态图文检索算法研究 收藏
基于关联性挖掘的跨模态图文检索算法研究

基于关联性挖掘的跨模态图文检索算法研究

作     者:陈文虎 

作者单位:北京交通大学 

学位级别:硕士

导师姓名:郎丛妍

授予年度:2023年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:图文检索 关联性挖掘 局部上下文学习 特征融合 

摘      要:跨模态图文检索作为多模态领域的基本研究课题之一,逐渐成为近年来的研究热点。跨模态图文检索旨在实现图像和文本之间的双向检索,其核心在于如何衡量两个模态之间的语义相似性。目前,这项任务已经被广泛应用于推荐系统、搜索引擎等领域,具有重要的研究价值和应用意义。本文以图像和文本的关联性建模为出发点,提出了基于局部上下文的图文检索算法和文本语义驱动的特征深度融合图文检索算法,分别从局部上下文学习和特征深度融合角度来探索图文之间的关联性。本文的主要工作内容如下:(1)提出了一种基于局部上下文的图文检索算法。该算法主要包括三个模块:局部上下文学习模块、关联性挖掘模块和相似度推理模块。局部上下文学习模块通过将一个图像区域的周围区域拓展为它的视觉语义上下文,从而有效建立了图像区域之间的联系。关联性挖掘模块同时探索模态内和模态间的关联性,获得了语义内容更为丰富的特征表示。相似度推理模块从全局对齐的角度来看待图像文本的关联性,通过多层注意力推理过滤无意义的局部对齐,进一步提升模型性能。三个公开数据集上的大量实验充分表明了该算法的有效性。(2)提出了一种文本语义驱动的特征深度融合图文检索算法。该算法将文本特征和图像特征深度融合,有效减小了模态间信息容量差异,并利用图像特征生成文本,优化图像特征表示。该算法主要分为特征深度融合和文本生成两部分。在特征深度融合部分,该算法使用交叉注意力促进模态间交互,之后通过一个门控单元进行特征深度融合,最后使用注意力机制获得整体图像和文本的特征。在图像生成文本部分,该算法使用序列模型在图像区域特征之间进行全局推理,获得语义增强后的全局图像特征,由此生成文本,并判断生成的文本和真实文本之间的相似度,进一步促进了模态间的融合。三个公开数据集上的大量实验表明了该算法在促进特征融合方面的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分