融合时序与全局上下文特征增强的弱监督动作定位
作者机构:太原科技大学计算机科学与技术学院
出 版 物:《计算机应用》 (Journal of Computer Applications)
年 卷 期:2024年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:山西省自然科学基金(202203021211194) 太原科技大学博士科研启动基金(20202063) 太原科技大学研究生教育创新项目(SY2022063)
主 题:弱监督动作定位 时序类激活图 动量更新 伪标签监督 特征增强
摘 要:针对现有弱监督动作定位研究中将视频片段视为单独动作实例独立处理带来的动作分类及定位不准确问题,提出一种融合时序与全局特征增强的弱监督动作定位方法。首先,构建时序特征增强分支利用空洞卷积扩大感受野,引入注意力机制捕获视频片段间的时序依赖性;其次,设计基于高斯混合模型的EM(Expectation-Maximization)算法捕获视频上下文信息,利用二分游走传播并进行全局增强,生成高质量的时序类激活图(TCAM)作为伪标签在线监督时序特征增强分支;再次,通过动量更新网络得到体现视频间动作特征的跨视频字典。最后,利用跨视频对比学习提高动作分类的准确性。实验结果表明,交并比取值0.5时,在THUMOS14和ActivityNet1.3数据集上分别取得了42.0%和42.2%的平均检测精度,相较于CCKEE(Cross-Video Contextual Knowledge Exploration and Exploitation)检测性能分别提升了2.6与0.6个百分点,验证了所提方法的有效性。