咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于骨架特征嵌入学习的人体动作识别方法研究 收藏
基于骨架特征嵌入学习的人体动作识别方法研究

基于骨架特征嵌入学习的人体动作识别方法研究

作     者:罗里 

作者单位:东莞理工学院 

学位级别:硕士

导师姓名:秦勇

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:骨架特征嵌入 多模态融合 卷积神经网络 人体动作识别 

摘      要:动作识别是计算机视觉中的重要分支之一,在视频监控、自主导航和人机交互方面有广泛的应用,成为国内外相关领域的研究热点。在动作识别领域,众多学者已经投入了大量研究,探索基于RGB、深度或骨架模态的方法。然而,每种模态数据在识别动作时所关注的角度存在差异,因此它们在准确率方面各有优劣。这种多样性使得不同模态的特征具有相互补充的潜力,因此如何有效地融合这些特征对动作识别至关重要。 以RGB图像为例,它包含丰富的颜色和纹理信息,但无法提供场景的三维结构;深度模态则含有丰富的几何信息,但由于大多数深度传感器的分辨率限制,常常丢失了颜色和纹理等外观信息;而人体骨架信息具有尺度不变性、对光照变化的鲁棒性以及数据量较小的特点。因此,将RGB、深度和骨架的模态的相互融合具有重要意义。通过利用它们的互补性,可以弥补各自的缺陷,提高动作识别的准确性和鲁棒性。本文以卷积神经网络为基础网络模型展开人体动作识别的研究,以下两个方面是本文的主要工作: 首先,本文设计的多模态动作识别方法将骨架信息与RGB图像相融合,并利用卷积神经网络进行处理。这一设计不仅充分利用了RGB图像中丰富的颜色和纹理信息,还融合了骨架信息中的空间和姿态特征,使得模型能够更全面地理解人体动作。为了降低长视频序列中的时间和计算资源消耗,采用了稀疏采样策略,这样可以减少所设计网络模型的计算量和存储。通过引入Skele Motion技术,本文将骨架序列处理成骨架图像,这种处理方式使得模型能够获取更多与动作相关的伪图像,从而增强了模型对动作特征的捕获能力。最终,提出的骨架嵌入模块能够从经过稀疏采样得到的RGB图像中和骨架伪图像中提取具有区分性的时间和空间特征,实现了对人体动作的准确识别。实验结果表明,提出的基于骨架伪图像转换特征学习的人体动作识别方法在动作识别准确率方面取得了显著提升。通过充分利用RGB图像和骨架信息的互补特性,以及精心设计的骨架嵌入模块,能够更准确地捕获动作的时空特征,提高了动作识别的准确性和鲁棒性。 其次,本文设计了一种基于二维和三维卷积网络的多模态动作识别方法,并插入第三方监督学习模块,以获取不同模态之间的互补特征。对于RGB视频,设计了骨架裁剪模块来去除多余的背景信息,提高动作识别的准确率。对于骨架序列,将每帧骨架的节点坐标放入一个多维矩阵中后将其转换为骨架伪图像,并通过二维卷积神经网络处理,作为整个多模态学习方法的监督学习模块。对于深度图序列直接将其送入由二维和三维卷积网络组合的模块中。最后,将三个模块的输出进行融合,得出动作预测结果。实验结果表明,提出的基于骨架特征嵌入对齐的人体动作识别方法在人体动作识别中的准确率有了一定的进步。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分