深度嵌套注意力下的SlowFast信息融合动作识别网络
SlowFast information fusion action recognition network based on deeply nested attention mechanism作者机构:沈阳工业大学信息科学与工程学院沈阳110870
出 版 物:《电子测量与仪器学报》 (Journal of Electronic Measurement and Instrumentation)
年 卷 期:2024年第38卷第3期
页 面:159-166页
核心收录:
学科分类:0809[工学-电子科学与技术(可授工学、理学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(62173078) 辽宁省自然科学基金(2022-MS-268)项目资助
主 题:视频动作识别 SlowFast 注意力深层嵌套 信息融合网络 时空通道注意力
摘 要:视频动作识别在视频监控、自动驾驶等多个领域都有着广泛的应用。SlowFast网络是视频动作识别领域经常使用的网络。目前SlowFast相关网络中使用注意力进行相关信息增强,注意力机制与网络的结合方式是将注意力机制嵌套到网络的各个卷积块之间,如果将注意力机制深层嵌套到卷积块的具体卷积层中,SlowFast网络的信息提取能力将更进一步。首先提出了一种深度嵌套注意力机制,该深度嵌套机制内部包含一种可以提取时空与通道信息的注意力SCTM,使SlowFast网络的3种信息提取能力得到了进一步加强。此外,目前多流网络融合的信息并没有充分的交互与处理。提出了一种基于交叉注意力与ConvLSTM的多流时空信息融合网络,使多流网络中每个流的信息充分交互。改进后的SlowFast网络在UCF101数据集上的Top-1准确率已达到98.5%,在HMDB51数据集中的准确率达到了80.1%。均优于目前已有的模型,比原始SlowFast网络提高了2.64%,且鉴于上述数据,深度嵌套注意力的SlowFast时空信息融合网络在信息提取与融合方面具有优越性能。