咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向图文检索的跨模态实体对齐研究 收藏
面向图文检索的跨模态实体对齐研究

面向图文检索的跨模态实体对齐研究

作     者:魏记书 

作者单位:齐鲁工业大学 

学位级别:硕士

导师姓名:孙涛

授予年度:2023年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:实体对齐 深度学习 注意力机制 图文检索 

摘      要:目前多媒体数据信息时代的来临,亟需一门有效的信息检索技术手段来管理海量的多模态数据,因此图文信息检索引起普遍重视。图文检索任务旨在用一种模态的数据检索另一种模态数据,完成信息互相补充,从而实现信息的高度利用。但是目前图文检索面临着很多困难:跨模态数据具有语义鸿沟难以实现信息关联。图形与文字表述方法不一致,动态实体不易捕捉,文本描述的动态实体找不到与之匹配的图像区域。实体对齐是图文检索任务中重要的部分,主要是将图像和文本中描述的实体对应起来,实现跨模态实体的异构语义高度统一,是特征提取的下一阶段任务。实体对齐可以将异构模态的实体映射到同一个公共空间,完成实体之间的信息交互与对齐。为此在实体对齐中,本文提出两个模型主要解决目前图文检索任务存在的问题,主要贡献如下:(1)针对异构模态间和模态内的信息难以关联,重点信息关注不够充分的问题,本文提出了一个基于Bert和自注意力机制的图文对齐模型(BSAM)。主要实现异构模态内信息和模态间信息的相互关联,对齐跨模态实体的细节特征,从而完成图像和文本中描述的实体全部对应。通过引入自注意力机制建立图像模态内的关联信息,文本通过Bert模型的Transformer模块自适应的提取上下文信息与单词之间的关联信息。重点关注图像和文本描述中实体的细节特征,通过对齐图像和文本中实体的细节特征,从而实现图文实体对齐。在实体对齐过程中引入交叉注意机制和相似注意过滤(CA-SAF)模块,计算所有相关的细节特征,增强相关性高的匹配对,过滤不相关的匹配对,减少计算量解决数据冗余问题。(2)针对文本描述中的动态实体难以对应相关的图像动态区域的问题,提出了一个基于门控循环注意网络的图文对齐模型(GCAN),主要用于对齐图文中与动作相关的实体信息。该模型将文本通过词性标注后输入到Bert模型中提取单词和句子特征,并将动词特征输入到动态实体捕捉单元(DEC)中,捕捉图像中实体的动作区域信息,然后将提取到带有动作信息的图像区域进行编码,编码后的图像区域带有上下文信息,实现动态实体对齐。为了解决图像局部片段造成的图像语序缺失问题,引入了全局信息来补充局部缺失信息,实现图像和文本中所有实体对齐。本文主要工作是提出了BSAM和GCAN两个模型,BSAM致力于解决实体的细节特征的对齐,这些实体指所有的静态实体。GCAN致力于解决图像和文本中的动态实体对齐。实体包括动态实体和静态实体,从这两个方面实现图文实体对齐。解决图文对齐不全面,匹配结果不准确的问题。通过实验证明了本文方法在图文检索方面的有效性,能够提高图文检索的准确率。未来可以通过压缩框架结构的角度来提高图文检索的速度,并将本文研究方法应用于其他模态之间的研究。总的来说,本文方法为图文检索提供了一种有效的解决方案,并为未来的相关研究提供了启示。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分