咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图片查询的跨模态视频检索方法 收藏
基于图片查询的跨模态视频检索方法

基于图片查询的跨模态视频检索方法

作     者:徐瑞聪 

作者单位:上海交通大学 

学位级别:硕士

导师姓名:张丽清

授予年度:2020年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:跨模态检索 视频包信息 多示例学习模块 对抗学习方式 

摘      要:随着多媒体数据的爆发,人们对文本、图片、视频的需求日益增加。搜索引擎、视频网站、社交媒体都承载着大量多模态数据,飞速增长的数据同时也促进了大量跨模态检索的应用发展。不同于单一模态的检索任务,跨模态检索通过建立两种模态之间的语义联系,实现不同信息模式下的检索任务。在当今互联网时代中,跨模态检索存在着重要研究意义和应用价值。如今,文字与图片之间的跨模态检索已经存在着大量成熟的研究工作,例如,以文搜图、以图检文。但是,作为一个重要的多媒体数据分支,视频在现实生活中具有广泛的应用场景。本文探究的是图片与视频之间的跨模态检索任务,即,基于图片查询的视频检索任务,旨在检索到包含与查询图片具有相同活动信息内容的视频。针对视频丰富的数据内容,我们首先提出利用动作分类模型R-C3D模型提取视频中基于时序的活动区域段特征,并构建视频活动信息包的表达方式。这种方式可以在一定程度上可以过滤掉背景片段,同时也保留视频结构上的信息。此外,我们创新性地结合多示例学习模块到本文提出的检索框架中,进一步解决视频信息包中信息冗余的问题。为了保留视频中各个示例之间的结构关联,我们将图结构插入到多示例学习模块中,提出基于图的多示例学习模块,可以较好地选择视频中的显著性信息。整体的模型框架是基于对抗学习的方式,视频和图片首先被映射到一个共享空间,并由三元组损失函数、语义分类损失函数共同与模态分类损失函数对抗学习。在三元组损失函数中,考虑到视频包和图片向量不同的结构特点,我们提出基于几何投影的三元组损失函数。通过计算图片特征点到视频面上正交投影之间的距离,进而度量图片和视频之间的相似性,这种方式不仅可以巧妙地利用高维空间中的几何结构特性,还可以完整地保留视频特征信息,减少有效信息的丢失。本文在三个公开数据集上进行了实验,即,基于行为信息的数据集,THUMOS’14数据集和Activity Net数据集,和基于事件的数据集,MED2017 Event数据集。我们选择在检索任务中具有优越效果的三类对比方法,即,单模态哈希方法、多模态哈希方法、跨模态检索方法。通过在不同类型、不同规模的数据集上实验,我们可以很好验证本文方法相比于其他方法具有优越性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分