咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于时空场景图的行为识别算法及其应用研究 收藏
基于时空场景图的行为识别算法及其应用研究

基于时空场景图的行为识别算法及其应用研究

作     者:崔奕宸 

作者单位:华东师范大学 

学位级别:硕士

导师姓名:蔡海滨

授予年度:2023年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:行为识别 时空场景图 深度学习 文本-视频检索 视频理解 

摘      要:使用计算机推断视频中人类行为的任务被称为行为识别,其是视频理解领域的重要任务之一。随着过去十年深度学习的发展,基于深度学习的行为识别算法已经在行为识别任务上取得了显著进展,然而,现有的算法通常将人类的行为视为单一事件,并没有考虑行为的组成——人类和周围场景的一系列动态交互,这限制了算法学习行为的能力。使用时空场景图可以很好地描述视频中人类行为的组成,然而,时空场景图在行为识别任务上的应用还没有什么探索。另一方面,传统的视频检索完全依赖于视频相关的文字数据而不考虑视频的内容,将视频理解算法引入视频检索系统后可以实现以视频内容作为依据的检索,从而提高检索的有效性。针对上述问题,本文主要进行了以下研究:1.提出了基于GNN-RNN的行为识别算法:本文将时空场景图引入行为识别领域,提出了以时空场景图作为输入数据的行为识别算法,算法的组成包括图编码模块、图池化模块、时间编码模块和分类模块,其中图编码模块和时间编码模块分别基于图神经网络(GNN)和循环神经网络(RNN)实现。实验结果表明,本文所提出的GNN-RNN行为识别算法优于基准算法,在行为识别任务上获得了良好的性能。2.提出了基于Transformer的行为识别算法:为了进一步优化GNN-RNN行为识别算法的性能,本文在其基础上提出了基于Transformer的行为识别算法,该算法通过图Transformer编码器和时间Transformer编码器从时空场景图中学习行为特征。实验结果表明,时间Transformer编码器处理图表示序列的表现优于基于传统RNN实现的时间编码模块,而结合基于传统GNN实现的图编码模块和时间Transformer编码器的GNN-TTE行为识别算法的性能优于基线算法(GNN-RNN行为识别算法)。3.设计并实现基于视频行为和时空场景图的文本-视频检索系统:在本文所提出的行为识别算法的基础上,设计并实现了基于视频行为和时空场景图的文本-视频检索系统。系统评估表明,本文所实现的文本-视频检索系统可以有效地完成基于视频内容的检索,同时也证明了本文所提出的行为识别算法的应用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分