咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多图正则化自动编码器深度网络的视频语义分析 收藏
基于多图正则化自动编码器深度网络的视频语义分析

基于多图正则化自动编码器深度网络的视频语义分析

作     者:方佳英 

作者单位:江苏大学 

学位级别:硕士

导师姓名:詹永照

授予年度:2019年

学科分类:08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0811[工学-控制科学与工程] 

主      题:深度学习 多图正则化 自动编码器 3D卷积神经网络 视频语义分析 

摘      要:近年来,随着互联网技术和多媒体信息技术的高速发展,用户在网络上获取视频数据以及进行信息的传输更加方便,也造成了网络上的视频、图像等多媒体数据数量迅猛增加。视频数据作为当前互联网中的重要数据来源之一,它含有丰富的数据信息但是数据量大、数据结构复杂。视频数据的发展及对于视频智能化处理的需求促使人们在视频语义层面对数据进行分析,识别出视频的语义标签以实现对数据的更高效管理和检索。在视频管理和检索领域,研究提取视频的有效特征并且利用这些特征实现视频语义分析和概念检测成为热点问题。本文在查阅大量文献的基础上,首先介绍视频语义概念分析的研究背景、意义及国内外发展现状,其次介绍几种深度学习模型,如自动编码器模型和卷积神经网络模型,另外对于基于深度学习的视频语义概念分析研究应用进行简要说明。本文结合多图正则化的优势以及图像、视频特征提取的发展需求,提出多图正则化自动编码器网络模型、基于3D卷积神经网络(3DCNN)和多图正则化自动编码器(MGAE)的视频语义概念分析模型,并且基于提出的网络模型设计实现视频语义概念分析原型系统。本文主要研究内容如下:(1)提出了基于多图正则化的自动编码器网络。由于多媒体数据如图像、视频或音频等具有多样性特征,而传统的方法不适用于对这种数据集进行多视图建模,研究如何将流形学习中的图构造方法与自动编码器结合并用于多媒体数据多视图特征表示是一个重要问题。因此在多种图构造方法和拉普拉斯图正则化自动编码器网络的基础上,提出基于多图正则化的自动编码器网络。该方法通过在自动编码器网络中嵌入多图正则化约束项,从而使得学习获得的特征能够考虑样本之间的近邻关系、关联关系和类别关系,使其具有更好的泛化能力。将该网络用于图像特征的优化学习,实验结果表明,本方法可以更好地表达多视图的特征,从而提升图像分类的准确性。(2)提出了基于3D卷积神经网络和多图正则化自动编码器视频语义概念分析模型。该模型首先构建3D卷积神经网络用于学习提取视频特征,其次构建多图正则化自动编码器对于学习获得的视频特征进一步优化,从而不仅可以获得视频的时序信息和空间特征,还可以学习获得具有关联性和多视图的视频特征,使得整个网络模型能够学习提取出更加合理和有鉴别性的视频特征,提升视频语义概念分析模型的有效性和准确性。在典型视频数据集上的实验结果表明,所提出的网络模型能够更加合理地优化视频特征,从而有效提高视频语义概念检测的准确性。(3)根据面向对象的程序设计思想采用开发语言Python以及相关附加开发库Tensorflow、Keras等设计实现了基于多图正则化自动编码器深度网络的视频语义概念分析原型系统。该原型系统由视频数据预处理、模型训练、语义概念检测三个子系统构成,系统界面简洁,操作方便,验证了本文所提出的视频语义概念分析模型的可用性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分