咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的视频动作识别方法研究与应用 收藏
基于深度学习的视频动作识别方法研究与应用

基于深度学习的视频动作识别方法研究与应用

作     者:谈伟峰 

作者单位:南京邮电大学 

学位级别:硕士

导师姓名:程春玲

授予年度:2022年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:深度学习 视频动作识别 时序建模 多层感知机 数据增强 边界框回归 

摘      要:随着深度学习的发展,视频动作识别的性能大幅提升,并在现实生活中得到广泛应用。然而现有方法通常因为建模视频动作时序信息而导致模型复杂度变高、计算成本增加;同时,随着越来越多长而复杂的视频数据集被提出,长期动作的时间维度更长、运动信息更复杂,这给现有方法在捕获整个时间范围内长期依赖关系方面带来了新的挑战,且现有方法忽略了空间和时间信息之间的联系;此外,网络结构越来越深的视频动作识别模型与规模较小的数据集的冲突日益严重,且现有数据集中视频数据通常较为理想,然而现有数据增强方法在提升模型泛化能力和鲁棒性时存在重要目标语义信息丢失等问题。因此,本文针对视频动作时序特征学习、长期动作识别和数据增强分别提出了新的方法,主要工作如下:(1)针对时序信息建模导致模型复杂度变高、计算成本增加的问题,提出一种基于动态时序移位的视频动作时序特征学习方法。不同通道维度上特征间的联系存在差异,选择联系紧密的通道特征进行时序移位,可获得有效的交互信息。于是构建双层全连接,学习每个通道上不同时间维度上特征间的关系,获得不同层次通道的注意力分布;然后设计动态时序移位模块(DTSM),动态选择注意力值大于阈值的通道,沿着时间维度进行时序移位以获得时序特征;最后固定双层全连接的网络参数用于学习全局时空特征,并与时序特征融合以增强动作特征表示。该方法在短而均匀的数据集上提升了识别精度,模型复杂度较低。(2)针对现有方法无法捕获长期动作的长期依赖关系,分割长期动作空间和时间信息间的联系等问题,提出基于Two-MLPs的长期动作识别方法。设计由多层感知机(MLP)组成的网络层,分别从空间和时间维度捕获长期动作特征的长期依赖关系,且MLP摒弃了归纳偏置,实现网络完全自主学习;在损失函数中添加范数惩罚项,约束网络学习方向以探索空间和时间信息的联系,并利用近端梯度下降算法解决非凸规划问题。该方法在长而复杂的数据集上取得了较好的长期动作识别精度,且实验验证了空间和时间信息间联系的有效性。(3)针对现有数据增强方法在缓解过拟合问题时,出现CNN平移不变性、重要目标语义信息丢失等问题,提出基于改进边界框回归的视频数据增方法。首先提出新的衡量指标SIo U并引入Beta分布以改进现有边界框回归方法;然后搭建数据增强网络,捕获原图像中目标区域并对原图像进行初步增强,将目标区域复制到初步增强后的图像中,生成新的样本,避免了重要目标语义信息的丢失。实验验证了该方法能够提升现有视频动作识别方法的性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分