基于高低层特征融合与卷积注意力机制的视频动作识别方法研究
作者单位:华中科技大学
学位级别:硕士
导师姓名:张钧
授予年度:2019年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:视频动作识别 高低层特征融合 自顶向下 自底向上 卷积注意力机制 多级注意力机制网络
摘 要:随着计算机网络的普及和智慧城市建设的深入,视频逐渐成为城市数据中主要的数据载体之一。由于视频内容的复杂性,基于视频的动作识别往往存在识别难度大、精度低等问题。论文从提升视频动作识别精度的角度出发,以时序分割网络(TSN,Temporal Segment Networks)为框架,在增强特征表达能力与提升视频内容显著性两个层面,提出了多种视频动作识别的改进方法。论文针对动作视频中运动目标多尺度的问题,提出了两种基于高低层特征融合的视频动作识别方法,分别为基于自顶向下特征融合的视频动作识别方法和基于自底向上特征融合的视频动作识别方法。两种方法在UCF101(split1)的测试集上的多模态融合后的动作识别准确率分别达到了93.9%和94.5%,分别比同等条件下未进行特征融合的TSN方法的准确率提高了1.6%和2.2%。为了提升视频内容的显著性,论文提出了一种基于卷积注意力机制的视频动作识别方法。论文设计了一种全卷积结构的注意力机制来捕捉视频动作的显著区域。该结构对比当前已有的基于循环网络结构的注意力机制具有降低训练难度并且易于与多种基础网络相耦合的优点。最终,该方法在UCF101和HMDB51数据集上多模态融合后的动作识别准确率分别为95.0%和71.6%,分别比同等实验条件下未嵌入注意力机制的TSN方法的动作识别准确率提高了0.8%和2.2%。在已提出的卷积注意力结构的基础上,论文提出了一种基于多级注意力机制网络的视频动作识别方法。该方法具有在多个层级中精确捕捉视频显著区域的效果。最终,该方法在UCF101(split1)和HMDB51(split1)数据集上多模态融合后的动作识别准确率分别为94.4%和72.0%,比基于卷积注意力机制的视频动作识别方法提高0.1%和0.4%,比未嵌入注意力机制的TSN方法提高2.1%和2.1%。动作识别准确率的提升验证了该方法在视频动作识别上的有效性。