结合自注意力与CNN的社区行人行为检测算法
作者机构:贵州大学大数据与信息工程学院
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:贵州省基础研究(自然科学)项目(黔科合基础-ZK重点001)
主 题:自注意力机制 时空注意力机制 行为检测 残差网络 智慧数字社区
摘 要:行人行为检测算法能够有效解决传统社区安全管理主要依赖人力巡逻或事后查看监控录像导致人力物力消耗大、对紧急事件反应延缓的问题。现有行为检测模型在实际部署时主要面临两方面的挑战:一是高精度行为检测模型计算量和参数量大导致部署困难;二是低复杂度行为检测模型虽然计算量和参数量小易于部署,但精度低难以满足实际应用。本文面向智慧数字社区管理,使用2D卷积神经网络(2D-CNN)的视频行为检测算法TSM(Temporal Shift Module)作为核心算法并进行优化改进,旨在提升行为检测模型精度的同时降低计算量和参数量使其易于实际应用部署。利用混合自注意力模块ACmix和GhostConv设计全新的DACGhostBottleneck1替换TSM骨干网络中大部分的Bottleneck1,降低模型计算量和参数量的同时提升模型处理长序列和理解全局信息的能力;使用GhostConv代替在TSM骨干网络中部分Bottleneck1和所有Bottleneck2中的Conv,大量减少模型参数量与计算量;提出一种融合了时间、运动状态、通道信息的TAACTION注意力模块,有效提升模型的时空建模能力;结合SCConv和Conv设计出CSCConvBlock替换TSM骨干网络阶段0的Conv,在基本不增加模型计算量的同时提升检测精度;最后应用数据增强Video Mix-up,提高模型的分类性能、泛化能力和鲁棒性。改进后的算法在实验数据集上Top1、Accuracy分别提升了5.81、6.05个百分点,参数量及计算量相比TSM原模型分别降低了48.17%、51.98%。总的来看,改进后的算法在有效减少模型参数量与计算量的同时提高了检测精度,明显优于原算法且其模型更易于实际应用部署,具有切实的应用价值。