双向预测BiP-GAN的行人视频异常事件自动检测
作者机构:中国地质大学(武汉)国家地理信息系统工程技术研究中心
出 版 物:《武汉大学学报(信息科学版)》 (Geomatics and Information Science of Wuhan University)
年 卷 期:2025年
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:生成对抗网络 行人视频异常事件检测 深度学习 人工智能
摘 要:视频监控系统在安全和监督领域扮演着至关重要的角色,如何在不需要人为干预的情况下从视频中自动精准识别具有潜在安全威胁的行人非正常行为或事件,减少对大量视频监控画面的人工审查压力,是目前计算机视觉领域的研究热点之一。近年来人工智能技术的快速发展使得视频异常检测技术得到了大幅提升,但对于多变、多样环境下异常与正常行为细微差异区分还存在挑战。本文构建了一种新的双向预测BiP-GAN(Bidirectional prediction GAN)视频行人异常检测模型。该模型主要包括CCA-UNet生成器和Globle-Patch判别器,利用光流模型在光流变化及图像序列运动特征的捕获优势,将其用于生成器和判别器的损失函数计算。CCA-UNet生成器以经典U-Net模块为基础,通过引入CCA(CrossCirssAttention)模块增强模型对视频行为关键特征的识别能力。Globle-Patch通过结合Globle判别器和Patch判别器在全局和局部特征的感受优势,提高模型全局及局部的特征感受能力,提高模型的鲁棒性和准确性。BiP-GAN的预训练策略采用前4帧正向预测和后4帧反向预测的双向预测模式,使模型更好地结合图像序列的上下文特征生成图像质量更好的预测帧。另外,BiP-GAN采用Warm-up与CAF(Cosine Annealing Function余弦退火学习率函数)相结合的学习率衰减方法,加快模型寻找全局最优解,从而节省计算资源。实验利用公开数据集CUHK Avenue、UCSD ped2和ShanghaiTech对BiP-GAN进行了验证和分析,其AUC平均值为:87.3,96.2,73.9,均高于已有baseline模型(如:Ada-GAN;Con-GAN;Mul-GAN)。消融实验表明CCA-UNet生成器、Globle-Patch判别器、双向预测策略以及warm-up与CAF结合的学习率衰减方法对于模型的有效性。