基于网络用户视频的摘要技术研究
作者单位:合肥工业大学
学位级别:硕士
导师姓名:赵烨;洪兴勇
授予年度:2019年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:用户视频 视频摘要 视频分段 最短路径 生成对抗网络
摘 要:视频内容作为多媒体信息的载体之一不断被普遍应用在日常生活的方方面面。近些年来,随着移动电话和其他面向消费者的相机设备的普及,以及多媒体和互联网技术的高速发展,视频内容数量特别是网络用户视频的数量持续增长,这些海量的视频数据给人们理解新颖事物带来方便的同时也给视频存储,传输,检索等带来庞大的压力。而且由于视频内容的错综复杂,观众在浏览视频时会耗费大量的时间去寻找自己真正感兴趣的内容。技术正是基于这样的背景和需求而被提出来的。所谓视频摘要,就是以简略的内容概括原始视频的主要内容,一般分为静态的摘要和动态的摘要,静态的摘要从原始视频帧序列中抽取一些具有代表性的关键帧以生成摘要,而动态的摘要是由原始视频的一些视频片段组成。相对于动态视频摘要而言,静态视频摘要不受视频时序的约束,故形式更加直观且灵活。本文主要研究的摘要形式便是静态视频摘要。本文的主要创新点和成果如下:1.静态视频摘要的生成可以分为两大步骤,第一步就是视频的分段处理,第二步基于分段的结果在每段中进行关键帧的提取。本文首先在视频的分段处理上与传统的采样方法不同,针对网络用户视频提出了一种基于视频运动信息的自适应分段方法。2.针对视频摘要的传统算法,如聚类方法,图模型方法,在此基础上结合并优化,提出了一种新的基于最短路径算法的静态视频摘要方法(Shortest Path for Video Summary,SPVS)。SPVS方法将视频摘要的关键帧提取问题转化为有向图的最短路径求解问题,通过相似性度量找到的最短路径上的关键帧具有良好的代表性。3.由于传统的视频摘要方法所用到的特征大多是一些低维度的图片特征如颜色和纹理特征,随着机器学习和相关神经网络的发展,一些网络已经可以很轻易的提取出图片的深度的高维度特征,这些特征相对于低维度特征而言更具有代表性。而同时一些先进的神经网络的提出也为视频摘要技术提供了新的可能性。本文提出一种改进的生成对抗网络模型,通过生成对抗网络中生成器和判别器的博弈对抗对视频摘要生成过程进行学习,不断优化目标函数最后确定生成的摘要内容。