基于动态得分网络和自适应互补结构的时序行为提名与检测方法
作者单位:华南理工大学
学位级别:硕士
导师姓名:马丽红
授予年度:2019年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:时序行为提名与检测 动态池化 多层感知机 Soft-NMS提名抑制 动作得分可信度 自适应互补结构
摘 要:人体行为识别是计算机视觉应用领域的研究热点,互联网的发展推动其模型和算法进步。在海量的视频数据驱动下,尤其是剪辑视频的行为识别的准确率显著提升。然而,实际应用的视频大多数包含多种运动对象和多个行为片段,连续且未经修剪。因此,作为一项具有挑战性的任务——时序行为检测,需要检测出未经剪辑视频中的行为片段,即时序行为提名,定位每个行为片段的开始和结束时间,同时识别行为片段的动作类别。本文为了提高时序行为提名与检测的性能,提出了三种新的网络结构,用于时序行为提名与检测,本文主要工作包括:1、提出了一种动态提名网络——时序动态池化网络(TDP)。现有基于动作得分的时序行为提名方法,往往缺少对连续视频帧的时序信息利用,造成提名和检测的准确度不够高。本文提出了一种新的动作得分方法,设计了一个多层感知机的TDP网络,迭代地计算视频每一帧的动作得分,连续多帧特征向量与动态池化后的特征向量的残差作为网络的输入,利用了连续帧之间的时序信息。同时根据动作得分提取的关键帧来训练动作分类器,减少了分类时的冗余计算。实验结果表明,对比现有性能最好的基于TAG的动作得分,本文提出TDP网络在THUMOS14数据集上的行为提名平均召回率(AR@100)提升了11.2%,行为检测的准确率(mAP)提高了3.8%。2、提出了一种提名评估网络(PEN),对TDP网络得到候选提名进行评估和后处理,抑制冗余的行为提名生成。设计了一个多层感知机的提名评估网络,计算候选提名的置信度分数,根据置信度分数通过Soft-NMS方法去除冗余提名,提高提名召回率。实验结果表明,使用的PEN后的TDP网络的行为提名平均召回率提升了6.04%。3、提出了基于自适应互补结构(ACS)的时序行为提名方法。滑动窗口提名更稳定但不精确,而动作得分提名更精确但不稳定的,因此两种方法属性互补。本文设计了动作得分可信度(AST)网络,通过PEN训练动作得分候选提名得到。AST网络计算滑动窗口提名的动作得分可信度,根据动作得分可信度自适应地选择滑动窗口补充因动作得分质量低被忽略的提名。使用提出的时序卷积边界回归网络调整时序边界。实验结果表明:对比滑动窗口和TDP网络,基于ACS的行为提名平均召回率提高了16.57%和8.26%。