基于改进图卷积的人体行为识别方法研究
作者单位:长春工业大学
学位级别:硕士
导师姓名:胡黄水;孙翠玲
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:深度学习 人体行为识别 语言辅助训练 动态拓扑 自适应图卷积
摘 要:人体行为识别作为视频理解的中心任务和计算机视觉的重要方向,一直以来是人工智能领域的热门话题。近年来,基于骨架的人体行为识别技术受到了广泛关注和研究。相比于基于图像的人体行为识别技术,基于骨架的人体行为识别技术具有更好的鲁棒性和准确性。因此本文在较少模型参数量的基础上,以有效提高识别准确性为主要研究目标,对常见人体骨架行为识别算法中的图卷积算法展开探索和研究,并提出两种基于图卷积网络的人体行为识别模型,具体内容如下: (1)提出基于多尺度自适应图卷积的人体骨架行为识别模型。由于人体在执行动作时,可能会有微小的姿势调整或局部运动差异,导致整体动作看起来相似但不完全相同,这需要更多地局部信息来进行区分。针对这类问题,首先,使用动态学习拓扑的方法进行拓扑建模,随着图卷积层数增加以及时间的推移,拓扑图中节点间的连接关系会进行动态调整,从而能够更好的捕获动作中的时序关系。其次,通过由原始数据生成的卷积核进行拓扑建模、节点聚合等操作,使模型能够提取更丰富和更具意义的特征表示。最后,将空间模块中图卷积三分支进行通道维度拼接,加入边缘卷积模块,大大降低模型参数量。在NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA三种大规模公开数据集上验证了所提模型的性能。 (2)提出基于语言辅助训练图卷积的人体骨架行为识别模型。大多数基于骨架的行为识别网络更多关注对样本的关节等特征的提取,忽视了同样包含很多信息的动作语义关系。针对这类问题,首先,将骨架编码器输出的特征分为四个部分,并与文本编码器生成的部分文本特征进行对比学习,得到的对比损失用来指导整体网络的训练。其次,在骨架模型输入时加入角度特征这一高阶特征表示,以帮助模型进行相似动作的分类。最后,设计多特征的骨架编码器,将关节、骨骼和角度等特征分别进行信息提取,之后进行特征融合,经过三个图卷积块后送入全连接层进行分类。通过在NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA数据集上进行大量实验,验证了所提模型的性能。 本文针对传统人体骨架行为识别算法中缺少对人体局部特征的提取、拓扑结构无法进行动态调整和缺少对语义信息以及高阶特征的利用问题,提出基于多尺度自适应图卷积的人体骨架行为识别和基于语言辅助训练图卷积的人体骨架行为识别两种网络模型,在多个数据集上的测试结果表明他们具有良好的人体行为识别性能,具有一定的理论和实用价值。