咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于卷积神经网络的视频语义概念分析 收藏
基于卷积神经网络的视频语义概念分析

基于卷积神经网络的视频语义概念分析

作     者:詹智财 

作者单位:江苏大学 

学位级别:硕士

导师姓名:张建明

授予年度:2016年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:视频语义分析 卷积神经网络 稀疏线性解码器 拓扑约束 关键帧 池化 

摘      要:近年来,随着多媒体技术的日新月异,视频语义概念检测成了大家日益关注的研究热点。而在多媒体数据中,视频相比较于其他数据所包含的信息更加的复杂,如何很好的得到每个视频所包含的语义概念,并将其作为视频合适的标签也就成为了视频检索领域中的重点和难点。本文首先介绍传统的视频语义分析方法,其次详细介绍深度学习中几种模型,并讨论以往视频语义分析方法存在的问题;再次主要介绍本文所提出的视频语义概念分析方法,并验证方法的有效性,且简单介绍原型系统的构建;最后讨论视频语义概念分析领域将来的研究方向。本文的主要内容如下:(1)提出基于拓扑模型预训练卷积神经网络的视频语义概念分析方法卷积神经网络可以自适应提取输入数据中的分布式表征,通过构建不同的操作层,将原始数据进行低层级特征提取,并进行高层的变换从而得到更复杂且更具鲁棒性的特征。针对该模型需要较多的有标签数据,且为了进一步提升模型对视频图像帧中目标的旋转、缩放、平移等不变性,首先将拓扑约束引入到稀疏线性解码器模型中提出一种拓扑线性解码器模型,将该模型作为卷积神经网络的预训练模型,然后用较少的有标签关键帧对该模型进行微调,从而得到针对视频数据集的卷积神经网络特征提取模型,最后将提取的特征输送到支持向量机中做进一步的结果预测。实验结果表明,基于卷积神经网络的特征提取方法比传统的特征提取方法效果要好,而且在基于拓扑模型预训练的基础上效果有进一步的提升。(2)提出基于自适应阈值混合池化卷积神经网络的视频语义概念分析方法传统的卷积神经网络模型的池化层一般为最大池化或者平均池化,而最大池化因每次都是选取最大值,故而容易过拟合,而平均池化虽然考虑了整个池化区域的所有激活值,却极容易因池化区域中存在过小的激活值而使得池化的结果普遍偏小从而容易造成欠拟合。对此,本文提出自适应阈值混合池化的方法来代替传统的卷积神经网络池化层的池化方法。首先计算池化区域中每个激活值对应的贡献概率,并基于此作为每个激活值的权重求出该池化区域的激活值加权和,用其作为该池化区域的阈值,将大于该阈值的激活值予以保留,并对保留的激活值做平均操作从而得到最后的池化结果。实验结果表明,该方法相比传统的最大池化和平均池化方法能够更进一步的提高视频语义分类的准确率。(3)设计并实现基于卷积神经网络模型的视频语义分析原型系统基于程序模块化的设计理念,采用Python、CUDA以及Theano和Numpy库作为系统的核心算法开发,PyQt作为原型系统界面的开发,设计并实现数据预处理、模型构建与训练、语义检测三大模块,验证了本文所提的视频语义概念检测方法的可用性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分