指代视频分割方法研究综述
作者机构:硅湖职业技术学院计算机科学与技术学院
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:指代视频分割是计算机视觉和自然语言处理交叉领域的热点研究任务。该任务的目标是通过理解文本语义分割出给定视频的相关实体。与传统需预定义待分割物体类别的视觉分割任务不同,该任务不依赖于预定义的物体类别,而是通过理解给定的描述语句定位目标并分割。由于文本描述的内容随机且无分割好的视频帧当作参考,使得该任务极具挑战。虽然是新兴的跨媒体理解任务,但该任务在安防监控、车辆追踪以及行人重识别等领域具有极高的应用前景并已有较多性能显著的方法提出。由于缺乏指代视频分割方法的研究综述,因此现有的指代视频分割方法被系统梳理和分析。具体地,首先根据研究思路的不同粗略地将解决该任务的方法分为四类:分别为基于动态卷积、基于注意力机制、基于多层次信息学习和基于端到端序列预测的指代视频分割;接着对各类及各类内具体方法的性能进行定量和定性的分析;最后总结现有工作的不足以及未来可进行改进的思路。