咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >高效融合运动与表观信息的无监督视频目标分割算法研究 收藏
高效融合运动与表观信息的无监督视频目标分割算法研究

高效融合运动与表观信息的无监督视频目标分割算法研究

作     者:赵子成 

作者单位:南京信息工程大学 

学位级别:硕士

导师姓名:张开华

授予年度:2022年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:无监督视频目标分割 运动引导 最优结构匹配 局部注意力 

摘      要:无监督视频目标分割的旨在无需引导的情况下自动分离视频帧中的主要前景和背景,并输出像素级的精确分割。无监督视频目标分割在视频编码、场景理解等领域具有重要意义。随着深度学习的兴起,出现了大量基于卷积神经网络的无监督视频目标分割算法,并取得了重大进展和突破,但这些方法仍然受到复杂场景和模型计算代价的限制。本文从运动估计和外观信息出发,探讨了如何构建双流网络来解决上述问题。成果如下:目前流行的无监督视频目标分割方法利用双流网络融合RGB帧和光流,然而,它们无法处理两个输入模态下的干扰噪声,这可能会严重降低模型的性能。本文建立了输入模态之间的对应关系,利用最优结构匹配抑制干扰信号。给定一个视频帧,从RGB图像和光流估计中提取稠密的局部特征,并将其视为两种复杂的结构化表示。然后,利用Wasserstein距离计算将一个模式中的特征传输到另一个模式的全局最小流,每个流的幅度表示两个局部特征之间的对齐程度。为了将最优结构匹配嵌入到一个可以端到端训练的双流网络中,本文将传输代价矩阵分解为多个小的空间块,并设计了一个可微的长短分解Sinkhorn模块,该模块由一个长距离Sinkhorn层和一个短距离Sinkhorn层串联组成,本文将该模块集成到一个双流网络中。本文的实验表明,在DAVIS-16和FBMS数据集上,运动外观的结构对齐可以产生最先进的结果。在上一个工作的基础上,本文进一步探索了外观与运动信息的相关性,研究了算法的轻量化方法,提出了一种基于空洞局部注意机制的无监督视频目标分割算法。网络由双流网络、多头运动引导模块、多尺度外观自增强模块和多尺度渐进融合模块组成。空洞局部注意力机制结合了注意力机制和卷积的优点,在效果和计算复杂度之间取得了平衡。多头运动引导模块利用空洞局部注意机制从运动特征中提取空间信息,得到多组动态卷积核,对外观特征进行卷积,引导外观特征学习高级语义。多尺度外观自增强模块利用空洞局部注意机制提取外观特征的多尺度信息,获得多组动态卷积核,进行卷积以增强外观特征的语义。编码器提取不同阶段的特征,送入多尺度渐进融合模块,将深层特征逐渐融合到浅层特征中,同时保留浅层特征的细节信息,改善目标分割效果。该算法可以进行端到端的训练,模型参数量和计算量较小,推理速度大幅提高,在DAVIS-16和FBMS数据集上优于同期方法,在较难的FBMS数据集上提升了0.5个百分点。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分