基于镜头注意力的新型视频检索网络——从影视片段检索片源
作者单位:华中科技大学
学位级别:硕士
导师姓名:刘海霞
授予年度:2023年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:深度神经网络 视频检索 镜头分割 特征提取 注意力机制 端到端
摘 要:随着网络技术和信息科技的不断发展,以及智能手机、数码相机等硬件设备越来越趋于大众化,人们通过网络所发送和接收的数字信号如文本、语音、图片、视频等,无论是在质量上还是数量上都有显著的提升。而在这些数字信号中,视频是携带信息量最丰富多样化的媒体。由于视频拍摄以及创作技术门槛的降低,人们有更多的途径可以获取到内容越来越丰富的视频。面对呈指数增长的视频数据,人们需要从中快速有效地检索出对其有价值的视频,因此视频领域的检索问题已然成为当今信息化时代亟待解决的难题。目前,以抖音为代表的短视频平台受到广泛的使用与喜爱,用户有时会在平台上看到一些电影的剪辑片段并可能对此产生兴趣,但会常常苦于无法得知对应源电影的相关信息。本文针对这一现象并结合当前视频检索领域的发展,创新性地提出利用影视片段从视频库里检索出与之对应的整部电影的视频检索任务。值得说明的是,该任务不仅适用于上述娱乐推荐场景,也可用于版权检测,相似片段检索等其他现实场景。针对上段所提出的新型视频检索任务并考虑到现有检索框架中繁琐复杂的后处理过程,本文首先将该检索问题转化为分类问题,即预测查询视频与视频库中的某个视频在内容上是否具有包含关系,并提出了基于镜头特征的新型视频检索框架。由于查询视频和视频库中的视频在时间维度上的显著差异,本文首先对视频的结构进行分析,并在此基础上对视频进行时间维度上的切分,利用镜头作为衡量二者相关程度的基本单位。为了在计算量可接受的范围内得到语义信息更丰富的特征,本文采用3D-Swin Transformer结构对切分得到的镜头进行特征提取,然后将这些镜头特征送入带有classified token的Transformer网络,使其在特征交互的过程中对那些相似的镜头给予更高的关注,从而使模型获得较好的分类效果和泛化性能。需要指出的是,首先由于该框架在特征提取和分类阶段仅采用了Transformer结构,因此相较于传统的时序神经网络RNN,LSTM等在计算上具有很好的并行性。其次该框架为端到端的,无需繁杂的后处理过程,如人工设计特征聚合及相似度计算等操作,而只需取数据库中使模型输出最高的视频作为检索结果即可。