基于深度学习的视频动作识别方法研究
作者单位:桂林电子科技大学
学位级别:硕士
导师姓名:刘建明
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:视频动作识别 多流网络 运动特征 细粒度动作 卷积神经网络
摘 要:动作识别是计算机视觉领域一个具有代表性的研究方向,在智能监控、人机交互、智慧医疗等领域具有潜在的应用价值。动作识别的关键任务是提取视频中人体动作的运动特征,然而视频中动作差异较大、速度不一,如何有效地表征其运动信息仍然是学者们的一个研究难点。传统的手工设计特征方法工作难度大且识别率较低,基于深度学习的方法能够充分挖掘视频中的特征信息,快速预测视频中的动作类别,但目前仍存在着识别率不高、计算代价大的问题。本文研究了基于深度学习的视频动作识别方法,具体研究内容包括:(1)针对基于深度学习的动作识别方法只关注长期时间结构建模,缺乏短期时间结构表达,从而影响识别精度的问题,以及网络参数数目众多、算法计算复杂等问题,本文提出了基于长短期时序建模的动作识别方法,首先在不同时间尺度下构建了不同的时间流模型,获得模型得分,然后沿着空间维度学习空间流的模型得分,接着构建一个多流动作识别模型融合时空特征,最后按权重分配融合各流输出得到动作分类结果。该方法在数据集UCF-101和HMDB-51中进行了实验评估,实验结果表明识别精度较基准模型TSN(Temporal Segment Networks,TSN)分别提升了4.3%和8.7%,并且减少了40.1%~68.5%的计算代价。(2)针对细粒度动作运动特征提取困难、识别率低的问题,为了进一步提高视频中动作的识别精度,本文提出了基于运动信息特征图的动作识别方法,首先提出了一种运动信息的计算方法,称为运动信息特征图,然后探索了该方法的最佳实现方案。最后利用运动信息特征图将多帧运动信息聚集成一帧运动特征图,并且与现有的CNN(Convolutional Neural Network,CNN)结合提高动作识别准确率,有效增强模型对视频中细粒度动作的识别能力。在两个大规模人体动作识别数据集NTU RGB+D和NTU RGB+D 120上的大量实验,验证了该方法在有限的计算代价下,较基准模型TSM(Temporal Shift Module,TSM)动作识别率提升了2.2%~3.0%,并在识别细粒度动作上显现出了独特优势。