咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于卷积神经网络的视频行为识别的研究 收藏
基于卷积神经网络的视频行为识别的研究

基于卷积神经网络的视频行为识别的研究

作     者:黄若琳 

作者单位:哈尔滨工程大学 

学位级别:硕士

导师姓名:董红斌;潘悦

授予年度:2020年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:行为识别 3D神经网络 特征融合 集成学习 UCF-101数据集 

摘      要:随着5G网络时代的到来和深度学习及图灵设备的发展,越来越多基于深度卷积神经网络的技术被运用到人们的日常生活中来。深度神经网络虽然具有训练参数量较大、计算过程较复杂的缺点,但是,我们仍然不能忽略其具有自动提取隐式特征信息的优点,并且它被广泛地应用在多个领域中。其中,三维卷积神经网络是一种无需人工提取特征,能够直接处理连续视频帧数据的端到端网络模型,并且该网络常被用于基于视频数据的人体行为识别领域中。本文针对经典的三维神经网络进行了深入的研究,并根据不同的需求相应的改进了神经网络结构,提出了多种改进后的三维神经网络模型,主要的工作和创新有以下几点:(1)为了获取更具代表性的特征,提出了一种基于深层特征融合的三维卷积神经网络。不仅在网络模型的构建中,使用了Relu激活函数和批标准归一化等当前被证明有效的方法,还将高层特征与底层特征相融合组成新的特征表达;(2)为了增加网络的感受野范围,减少网络的计算量,并加速网络的收敛速度,本文融合Google提出的Inception_Res结构的思想,进一步提出了一种基于多尺度特征深度融合的三维神经网络,即在网络结构的三维卷积层中用多个小维度的3D卷积核来代替大维度的3D卷积核,并加入残差连接和BN层来防止网络模型出现过拟合现象;(3)为了使网络能够有不同尺度的输入,能够提取更深层次的语义信息,本文进一步提出了一种融合多级金字塔网络和注意力机制的3D卷积神经网络模型。在对传统的三维神经网络做多层级特征融合的同时,融合多级金字塔网络和注意力机制来提高模型的鲁棒性和识别正确率;(4)为了对视频数据集中的视觉属性进行显式学习,从而对相似特征做细化分类,本文进一步提出了一种基于视觉属性增强的集成神经网络。其结构主要包括三个子网络,第一个子网络为基于多尺度特征深度融合的3D卷积网络,第二个子网络为融合多级特征金字塔网络和注意力机制的3D卷积网络,第三个子网络为基于视觉属性增强的卷积网络,即主要网络过程是使用成熟的目标检测算法Faster-RCNN来对视频数据中的视觉属性进行发现和提取,然后将视觉属性和视频动作类别关联起来,再输入到全卷积层后进行动作分类和识别。最后,本文在UCF-101数据集上的实验充分表明本文提出的多种模型的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分