基于镜头注意力的新型视频检索网络——从影视片段检索片源-南通市图书馆

文献详情 >基于镜头注意力的新型视频检索网络——从影视片段检索片源收藏

基于镜头注意力的新型视频检索网络——从影视片段检索片源

作者：张恒

作者单位：华中科技大学

学位级别：硕士

导师姓名：刘海霞

授予年度：2023年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

主题：深度神经网络视频检索镜头分割特征提取注意力机制端到端

摘要：随着网络技术和信息科技的不断发展,以及智能手机、数码相机等硬件设备越来越趋于大众化,人们通过网络所发送和接收的数字信号如文本、语音、图片、视频等,无论是在质量上还是数量上都有显著的提升。而在这些数字信号中,视频是携带信息量最丰富多样化的媒体。由于视频拍摄以及创作技术门槛的降低,人们有更多的途径可以获取到内容越来越丰富的视频。面对呈指数增长的视频数据,人们需要从中快速有效地检索出对其有价值的视频,因此视频领域的检索问题已然成为当今信息化时代亟待解决的难题。目前,以抖音为代表的短视频平台受到广泛的使用与喜爱,用户有时会在平台上看到一些电影的剪辑片段并可能对此产生兴趣,但会常常苦于无法得知对应源电影的相关信息。本文针对这一现象并结合当前视频检索领域的发展,创新性地提出利用影视片段从视频库里检索出与之对应的整部电影的视频检索任务。值得说明的是,该任务不仅适用于上述娱乐推荐场景,也可用于版权检测,相似片段检索等其他现实场景。针对上段所提出的新型视频检索任务并考虑到现有检索框架中繁琐复杂的后处理过程,本文首先将该检索问题转化为分类问题,即预测查询视频与视频库中的某个视频在内容上是否具有包含关系,并提出了基于镜头特征的新型视频检索框架。由于查询视频和视频库中的视频在时间维度上的显著差异,本文首先对视频的结构进行分析,并在此基础上对视频进行时间维度上的切分,利用镜头作为衡量二者相关程度的基本单位。为了在计算量可接受的范围内得到语义信息更丰富的特征,本文采用3D-Swin Transformer结构对切分得到的镜头进行特征提取,然后将这些镜头特征送入带有classified token的Transformer网络,使其在特征交互的过程中对那些相似的镜头给予更高的关注,从而使模型获得较好的分类效果和泛化性能。需要指出的是,首先由于该框架在特征提取和分类阶段仅采用了Transformer结构,因此相较于传统的时序神经网络RNN,LSTM等在计算上具有很好的并行性。其次该框架为端到端的,无需繁杂的后处理过程,如人工设计特征聚合及相似度计算等操作,而只需取数据库中使模型输出最高的视频作为检索结果即可。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于镜头注意力的新型视频检索网络——从影视片段检索片源

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于镜头注意力的新型视频检索网络——从影视片段检索片源

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：