Section 4. 方法
本节回顾了现有的基于深度学习的SVOS方法和UVOS方法。如Section 1所述,SVOS方法对少数几帧视频(通常是第一帧)中的标注对象进行分割。相比之下,UVOS方法对具有突出的视觉显著性或者运动模式的对象进行分割。为了概括这一讨论,在本文的其余部分,我们将SVOS方法和UVOS方法中要分割的对象称为“目标对象”。
一般来说,现有方法利用输入序列的空间和时间特征来解决SVOS和UVOS中的问题。前者的特征有助于在整个视频序列中保持预测对象的具有一致的类别,后者的特征使得VOS方法能够自适应目标对象随着时间的变化。基于现有的模型架构,我们阐述了利用这些特征的几种技术。详见表3、表4与表5
表3、表4、表5:讨论的VOS方法汇总
方法名称 | 无(U)/半(S)监督 | 空间特征(在线微调)O | 空间特征(匹配)M | 空间特征(图)G | 时间特征(光流)O | 时间特征(掩膜传播)P | 时间特征(长时时间传播)L | 架构 | 主要贡献 |
---|---|---|---|---|---|---|---|---|---|
OSVOS | S | √ | VGG-16 | 第一个基于在线精调的方法 | |||||
MaskTrack | S | √ | √ | √ | DeepLab v2 | 第一个基于掩膜传播的方法 | |||
VPN | S | √ | DeepLab v1, BNN | 基于BNN的长时传播 | |||||
CTN | S | √ | √ | VGG-16 | 基于光流的掩膜精调 | ||||
MP-Net | U | √ | CNN, SharpMask | 用于UVOS的基于CNN的运动模式 | |||||
FusionSeg | U | √ | ResNet-101 | 运动和外观之间的融合 | |||||
OnAVOS | S | √ | √ | ResNet变体 | 在线自适应精调 | ||||
PLM | S | √ | √ | √ | CNN | 多尺度像素级匹配 | |||
CCNN | U | √ | VGG-16 | 互补的分割模块 | |||||
SegFlow | B | √ | √ | ResNet-101,FlowNet 1.0 | 用于VOS和光流的多任务 | ||||
VM-VOS | U | √ | √ | DeepLab v1, ConvGRU | 基于双向GRU的VOS | ||||
MaskRNN | S | √ | √ | √ | √ | VGG-16, FlowNet2.0 | 基于BPTT的掩膜传播 | ||
OSVOS-S | S | √ | VGG-16, MaskRCNN | 用于SVOS的语义传播 | |||||
STVOS | S | √ | √ | - | 基于点跟踪的传播 | ||||
CINM | S | √ | √ | OSVOS, FlowNet 2.0, DeepLab v2 | 用于VOS的时空MRF | ||||
PML | S | √ | DeepLab v2 | 用于快速SVOS的像素极匹配 | |||||
FAVOS | S | √ | SiamFC, ResNet-101 | 用于VOS的跟踪对象零件 | |||||
RCAL-VOS | S | √ | √ | DenseNet-56 | 用于SVOS的强化学习 | ||||
MGCRN | B | √ | √ | √ | ResNet-101, FlowNet 2.0 | 基于运动的级联精调 | |||
IET-VOS | U | √ | √ | DeepLab v2, FlowNet 2.0 | 规划UVOS用于寻找种子轨迹 | ||||
RGMP | S | √ | √ | √ | ResNet-50 | 混合匹配与掩膜传播 | |||
MoNet | S | √ | √ | √ | DeepLab v2, FlowNet 2.0 | 通过光流的特征对齐 | |||
OSMN | S | √ | VGG-16 | 在VOS中引入网络调节 | |||||
LSE-VOS | S | √ | √ | ResNet-101 | 伪标注和位置嵌入 | ||||
V-Match | S | √ | √ | ResNet-101 | 通过软匹配实现的有效匹配 | ||||
Dye-Net | S | √ | √ | √ | √ | √ | ResNet-101, RPN, FlowNet 2.0 | ROI匹配与双向传播 | |
SCO-VOS | B | √ | FCIS | 用于UVOS的团优化 | |||||
MSGSTP | B | √ | √ | - | 用于UVOS的显著性扩散 | ||||
MBN-VOS | U | √ | √ | √ | BNN, CNN, FlowNet 2.0 | 用于VOS的基于运动的BNN和图切 | |||
S2S | S | √ | √ | VGG-16, ConvLSTM | 跨越帧建立长时依赖 | ||||
PDB | U | √ | ResNet-50, ConvLSTM | 金字塔膨胀与双向ConvLSTM | |||||
PReMVOS | S | √ | √ | √ | √ | ResNet-V, Mask R-CNN, DeepLab v3+, FlowNet 2.0 | 建议生成,精调,合并 | ||
LucidTracker | S | √ | √ | √ | DeepLab v2, FlowNet 2.0 | 基于数据增强的精调 | |||
BubbleNets | S | √ | ResNet-50 | 确定最优帧用于标注 | |||||
FEELVOS | S | √ | √ | DeepLab v3 | 混合全局特征匹配与局部特征匹配 | ||||
SiamMask | S | √ | √ | ResNet-50 | 轻量级的跟踪与分割 | ||||
COSNet | U | √ | DeepLab v3 | 用于UVOS的协同注意力机制 | |||||
A-GAME | S | √ | ResNet-101 | 基于高斯混合模型的SVOS | |||||
STCNN | S | √ | √ | ResNet-101, GAN | 基于GAN和注意力的SVOS | ||||
MHPVOS | S | √ | √ | √ | √ | MR-CNN, DeepLab v3+, FlowNet 2.0 | 用于VOS的树结构优化 | ||
RVOS | B | √ | ResNet-101, ConvLSTM | 时间与空间传播 | |||||
AGSS-VOS | S | √ | √ | √ | √ | RGMP+FlowNet 2.0 | 高效的多对象匹配 | ||
RANet | S | √ | √ | ResNet-101 | 基于特征排序的匹配 | ||||
DTN | S | √ | √ | √ | ResNet-50, FlowNet 2.0 | 局部ROI生成,动态分割网络 | |||
DMM-Net | S | √ | √ | √ | Mask R-CNN, ConvLSTM | 最优匹配模块 | |||
AD-Net | U | √ | DeepLab v3 | 全局一致性,自注意力机制 | |||||
AGNN | U | √ | GNN, DeepLab v3, ConvGRU | 基于注意力GNN的VOS | |||||
CapsVOS | S | √ | √ | CapsuleNet, ConvLSTM | 将CapsuleNet引入VOS | ||||
AGS | U | √ | ResNet-101, ConvLSTM | 证明视觉注意力在UVOS中的关键作用 | |||||
STM | S | √ | √ | ResNet-50 | 使用中间帧执行匹配 | ||||
TVOS | S | √ | √ | ResNet-50 | 在SVOS中应用直推式学习 | ||||
SAT | S | √ | ResNet-50 | 使用动态跟踪实现SVOS | |||||
FRTM | S | √ | ResNet-50 | 用于SVOS的判别目标模型 | |||||
LWL | S | √ | ResNet-50 | 可微和高效的少样本学习 | |||||
EGMN | B | √ | √ | √ | ResNet-50, ConvGRU | 基于图的记忆用于SVOS | |||
KMN | S | √ | √ | ResNet-50 | 在参考帧与目标帧之间的相互匹配 | ||||
AFB-URR | S | √ | √ | ResNet-50 | 自适应记忆和通过不确定性实现精调 | ||||
UnOVOST | U | √ | √ | √ | Mask R-CNN | 基于轨迹的森林路径切算法 | |||
CFBI+ | S | √ | √ | DeepLab v3+ | 可判别特征与多尺度匹配 | ||||
SSTVOS | S | √ | √ | √ | ResNet-101, Transformer | 基于Transformer的VOS和稀疏注意力机制 | |||
SwiftNet | S | √ | √ | ResNet-50 | 自应用记忆和轻量架构 | ||||
LCM | S | √ | √ | ResNet-50 | 位置编码与对象关系 | ||||
RMNet | S | √ | √ | √ | ResNet-50, TinyFlowNet | 局部到局部匹配 | |||
TAODA | U | √ | √ | ResNet-50, Mask R-CNN | 可判别的多对象的UVOS | ||||
HMMN | S | √ | √ | ResNet-50 | 多尺度记忆匹配 | ||||
STCN | S | √ | ResNet-50 | 轻量架构与高效L2距离 | |||||
AOT | S | √ | √ | ResNet-50/SwinTransformer, multi-layer transformers | 用于多对象VOS的统一架构 |
本节的其余部分组织如下:Section4.1、Section4.2和Section4.3介绍了空间特征技术,包括:在线微调、特征匹配和图优化,以及具有代表性的工作。Section4.4、Section4.5和Section4.6介绍了时间特征技术,包括:光流、掩膜传播和长时时间信息,以及具有代表性的工作。