Section_1_Introduction

ZhuYuanxiang 2023-05-16 17:42:15
Categories: Tags:

Ch01 简介

视频对象分割(Video Object Segmentation,VOS)是将视频序列中的前景区域和背景分享的任务[^Cucchiara,2003]。与对象跟踪相似[^Yilmaz,2006],VOS方法建立了不同帧上相同对象的对应关系,但是可以获得更多对象表示的细节(像素级的掩码,而不是边界框)。因此,VOS在许多现实世界的应用中发挥了重要作用。例如:视觉监控、动作识别、视频汇总和视频编辑[^Perazzi,2016a]。在早期基于手工制作特征的VOS方法中,对象性质[^Zhang,2013]、光流[^Papazoglou&Ferrari,2013],[^Tsai,2016]和显著性视觉[^Faktor&Irani,2014],[^Wang,2015]是经常使用的技术,用于从视频序列中分割对象。虽然这些方法在当时取得了最先进的成果,但是随着深度学习技术和高性能计算的发展,基于深度学习的VOS方法在准确性和效率方面都有了很大的进步。因此,最近的VOS方法大多是基于深度神经网络来实现的。两个权威的VOS基准给出的统计数据[^Perazzi,2016a],[^Xu,2018b]提示了当前的VOS方法的性能正在逐年提升,但是仍然未达最优。由于其潜在的应用和性能的提升空间,基于深度学习的VOS已经成为计算机视觉领域的一个活跃的研究课题。

当前的VOS方法主要分为四种类型:无监督的、半监督的、互动的和指导的(或者语言引导的)。本文重点讨论其中两种被广泛研究的类型:无监督的VOS(Unsupervised VOS, UVOS)和半监督的VOS(Semi-supervised VOS, SVOS)。注意到VOS中的“无监督”和“半监督”与一般机器学习任务有不同的应用范围。在VOS中,这些术语表示推理过程中而不是训练过程中的监督水平。特别的是,UVOS方法在没有任何基准标签或者先验知识 (非监督设置)的条件下执行分割。具有显著的运行模式或者视觉显著性的对象可以被分割出来。另一方面,SVOS方法在少数几帧内使用有效的基准标签初始化(一般只有第一帧,半监督设置)。这些标签是手工注释的,用于标记剩余帧中需要被分割的对象。为了避免概念混淆,最近的一些工作将无监督VOS/半监督VOS称为全自动VOS/半自动VOS或者零样本VOS/单样本VOS

image-20230517104020763

图1. UVOS和SVOS方法的示意图。这两种方法都以原始视频作为输入。UVOS方法针对具有主要运动模式或者视觉显著性的对象执行分割。SVOS中的目标对象(需要分割的对象)取决于第一帧(紫色边框)中的人类标注,因此其定义目标对象时更加灵活。

两种VOS之间的区别在图1中进行了描述,并且还能看出目标对象(需要分割的对象)在UVOS和SVOS中分别是自动定义和手动定义。许多早期的UVOS方法都是进行单一物体的分割,因为根据运动模式和视觉显著性很难区分对象实例。随着实例级分割模块的集成,无监督多对象分割方法也纷纷出现。

最近,出现了两篇关于视频分割的回顾类文献。[^Yao,2020]对基于手动生成特征和深度学习的视频对象分割和跟踪方法进行了很好的调研。[^Wang,2021b]则全面回顾了基于深度学习的视频对象分割和视频语义分割。与他们宽泛的研究范围不同的是,我们的论文针对基于深度学习的非监督VOS和半监督VOS方法进行更加详细的分类、回顾和验证实验,从而让读者更好地理解这些方法的机制、进展和发展趋势。因此,我们建议读者阅读上述两篇文章,以回顾交互VOS和指导(或者语言引导)VOS,还可以通过[^Wang,2021b]回顾视频语义分割方法。我们的重点是基于深度学习的无监督VOS/半监督VOS。

综上所述,我们工作的主要贡献如下:

图2直观地显示了本文的目录结构。本文的剩余部分结构如下:

image-20230517112129593

图2. 本文的可视化目录。请注意,Sec3.1后面的数字表示本节讨论的数据集数量,同样的原则也适用于Ch04。请注意,有篇论文DyeNet[^Li&Loy,2018]在Ch04中出现两次(Sec4.2和Sec4.5)是因为它在基于特征匹配的VOS和基于掩码传播的VOS中都有价值。