基于时空显著性的视频场景解析
作者单位:苏州大学
学位级别:硕士
导师姓名:刘纯平
授予年度:2016年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:缓慢特征分析 时空显著性 CNN特征 集成分类 场景解析
摘 要:场景解析是理解图像和视频至关重要的一步。作为近年来计算机视觉领域最活跃的研究方向之一,场景解析在自动车辆导航、遥感、地表外貌自动识别、图像检索等诸多领域都具有十分广泛的应用前景。通常,场景理解涉及两个部分:场景内容的提取和场景内容的识别。本文利用显著性模拟视觉注意机制提取场景中的显著区域,然后使用改进的图像场景解析算法完成视频场景内容的分层标注。主要研究工作如下:1)针对现有时空显著性检测模型对于运动特征的描述不是过于简单导致不足以包含丰富的运动信息,就是太过复杂导致耗时太多的问题,提出一种基于慢特征分析的时空显著性检测模型。该方法首先以非监督的方式从不同视频序列的时空立方体中学习缓慢特征函数,然后利用两层级联的缓慢特征核来提取像素级的高层运动特征用于计算时间显著性,最后将获得的时间显著图与基于布尔图的空间显著图融合生成最终的时空显著图。在JPEGS视频序列数据集上的实验结果表明,提出的方法优于其他的时空显著模型,获得了更好的显著区域提取效果。2)针对通常的非参数图像场景解析方法中利用人工特征的图像检索存在噪声图像导致不高的像素识别,以及利用KNN的超像素分类倾向于忽略稀少类别而带来较低的类别识别这两个问题,提出一种自动特征学习的场景解析方法。该方法首先利用深度学习框架提取CNN特征代替传统的人工特征(如gist特征和空间金字塔匹配)用于场景相似性的图像检索,然后将KNN与集成分类器技术相结合,通过合并不同概率分类器的似然得分来调整KNN分类的似然估计,从而增强稀少类别的分类性能。在两个公开数据集SIFTflow和LMSun上的实验结果表明,CNN特征在场景相似性描述上优于人工特征,大大提高了场景标注的像素识别率;另外KNN与集成分类器的融合使得场景标注的类别识别率得到显著提高。3)针对传统的非参数解析方法没有考虑到场景中显著区域所带来的语义重要性,导致一些具有稀少特性的显著区域标注不正确这一问题,提出一种基于感兴趣区域的视频场景标注算法。该方法首先利用时空显著性模拟人眼视觉注意机制提取当前视频帧的显著区域,根据提取的显著区域将超像素划分为前景和背景两个部分,然后分别计算对应超像素的分类成本从而实现对视频帧的分层解析。同时考虑连续视频帧间存在一定的约束性,将前一帧和当前帧的超像素分类成本融合从而获得最终标注结果。在标准数据库Cam Vid上的实验结果表明,提出的方法优于传统的非参数解析方法,在像素识别和类别识别上都获得了性能提升。