Section_4_Methods

ZhuYuanxiang 2023-05-19 17:30:07

Categories： Tags：

Section 4. 方法

本节回顾了现有的基于深度学习的SVOS方法和UVOS方法。如Section 1所述，SVOS方法对少数几帧视频（通常是第一帧）中的标注对象进行分割。相比之下，UVOS方法对具有突出的视觉显著性或者运动模式的对象进行分割。为了概括这一讨论，在本文的其余部分，我们将SVOS方法和UVOS方法中要分割的对象称为“目标对象”。

一般来说，现有方法利用输入序列的空间和时间特征来解决SVOS和UVOS中的问题。前者的特征有助于在整个视频序列中保持预测对象的具有一致的类别，后者的特征使得VOS方法能够自适应目标对象随着时间的变化。基于现有的模型架构，我们阐述了利用这些特征的几种技术。详见表3、表4与表5

表3、表4、表5：讨论的VOS方法汇总

方法名称	无(U)/半(S)监督	空间特征（在线微调）O	空间特征（匹配）M	空间特征（图）G	时间特征（光流）O	时间特征（掩膜传播）P	时间特征（长时时间传播）L	架构	主要贡献
OSVOS	S	√						VGG-16	第一个基于在线精调的方法
MaskTrack	S	√			√	√		DeepLab v2	第一个基于掩膜传播的方法
VPN	S						√	DeepLab v1, BNN	基于BNN的长时传播
CTN	S				√	√		VGG-16	基于光流的掩膜精调
MP-Net	U				√			CNN, SharpMask	用于UVOS的基于CNN的运动模式
FusionSeg	U				√			ResNet-101	运动和外观之间的融合
OnAVOS	S	√				√		ResNet变体	在线自适应精调
PLM	S	√	√			√		CNN	多尺度像素级匹配
CCNN	U		√					VGG-16	互补的分割模块
SegFlow	B	√			√			ResNet-101，FlowNet 1.0	用于VOS和光流的多任务
VM-VOS	U					√	√	DeepLab v1, ConvGRU	基于双向GRU的VOS
MaskRNN	S	√			√	√	√	VGG-16, FlowNet2.0	基于BPTT的掩膜传播
OSVOS-S	S	√						VGG-16, MaskRCNN	用于SVOS的语义传播
STVOS	S		√	√				-	基于点跟踪的传播
CINM	S	√			√			OSVOS, FlowNet 2.0, DeepLab v2	用于VOS的时空MRF
PML	S		√					DeepLab v2	用于快速SVOS的像素极匹配
FAVOS	S		√					SiamFC, ResNet-101	用于VOS的跟踪对象零件
RCAL-VOS	S	√				√		DenseNet-56	用于SVOS的强化学习
MGCRN	B	√			√	√		ResNet-101, FlowNet 2.0	基于运动的级联精调
IET-VOS	U			√	√			DeepLab v2, FlowNet 2.0	规划UVOS用于寻找种子轨迹
RGMP	S		√		√		√	ResNet-50	混合匹配与掩膜传播
MoNet	S	√			√	√		DeepLab v2, FlowNet 2.0	通过光流的特征对齐
OSMN	S					√		VGG-16	在VOS中引入网络调节
LSE-VOS	S	√				√		ResNet-101	伪标注和位置嵌入
V-Match	S		√			√		ResNet-101	通过软匹配实现的有效匹配
Dye-Net	S	√	√		√	√	√	ResNet-101, RPN, FlowNet 2.0	ROI匹配与双向传播
SCO-VOS	B			√				FCIS	用于UVOS的团优化
MSGSTP	B			√		√		-	用于UVOS的显著性扩散
MBN-VOS	U			√	√	√		BNN, CNN, FlowNet 2.0	用于VOS的基于运动的BNN和图切
S2S	S	√					√	VGG-16, ConvLSTM	跨越帧建立长时依赖
PDB	U						√	ResNet-50, ConvLSTM	金字塔膨胀与双向ConvLSTM
PReMVOS	S	√	√		√	√		ResNet-V, Mask R-CNN, DeepLab v3+, FlowNet 2.0	建议生成，精调，合并
LucidTracker	S	√			√	√		DeepLab v2, FlowNet 2.0	基于数据增强的精调
BubbleNets	S	√						ResNet-50	确定最优帧用于标注
FEELVOS	S		√			√		DeepLab v3	混合全局特征匹配与局部特征匹配
SiamMask	S		√			√		ResNet-50	轻量级的跟踪与分割
COSNet	U		√					DeepLab v3	用于UVOS的协同注意力机制
A-GAME	S					√		ResNet-101	基于高斯混合模型的SVOS
STCNN	S	√					√	ResNet-101, GAN	基于GAN和注意力的SVOS
MHPVOS	S	√		√	√	√		MR-CNN, DeepLab v3+, FlowNet 2.0	用于VOS的树结构优化
RVOS	B						√	ResNet-101, ConvLSTM	时间与空间传播
AGSS-VOS	S		√		√	√	√	RGMP+FlowNet 2.0	高效的多对象匹配
RANet	S		√			√		ResNet-101	基于特征排序的匹配
DTN	S		√		√	√		ResNet-50, FlowNet 2.0	局部ROI生成，动态分割网络
DMM-Net	S	√	√				√	Mask R-CNN, ConvLSTM	最优匹配模块
AD-Net	U		√					DeepLab v3	全局一致性，自注意力机制
AGNN	U			√				GNN, DeepLab v3, ConvGRU	基于注意力GNN的VOS
CapsVOS	S		√				√	CapsuleNet, ConvLSTM	将CapsuleNet引入VOS
AGS	U						√	ResNet-101, ConvLSTM	证明视觉注意力在UVOS中的关键作用
STM	S		√			√		ResNet-50	使用中间帧执行匹配
TVOS	S		√			√		ResNet-50	在SVOS中应用直推式学习
SAT	S		√					ResNet-50	使用动态跟踪实现SVOS
FRTM	S	√						ResNet-50	用于SVOS的判别目标模型
LWL	S	√						ResNet-50	可微和高效的少样本学习
EGMN	B		√	√		√		ResNet-50, ConvGRU	基于图的记忆用于SVOS
KMN	S		√			√		ResNet-50	在参考帧与目标帧之间的相互匹配
AFB-URR	S		√			√		ResNet-50	自适应记忆和通过不确定性实现精调
UnOVOST	U		√	√		√		Mask R-CNN	基于轨迹的森林路径切算法
CFBI+	S		√			√		DeepLab v3+	可判别特征与多尺度匹配
SSTVOS	S		√			√	√	ResNet-101, Transformer	基于Transformer的VOS和稀疏注意力机制
SwiftNet	S		√			√		ResNet-50	自应用记忆和轻量架构
LCM	S		√			√		ResNet-50	位置编码与对象关系
RMNet	S		√		√	√		ResNet-50, TinyFlowNet	局部到局部匹配
TAODA	U	√					√	ResNet-50, Mask R-CNN	可判别的多对象的UVOS
HMMN	S		√			√		ResNet-50	多尺度记忆匹配
STCN	S		√					ResNet-50	轻量架构与高效L2距离
AOT	S		√			√		ResNet-50/SwinTransformer, multi-layer transformers	用于多对象VOS的统一架构

本节的其余部分组织如下：Section4.1、Section4.2和Section4.3介绍了空间特征技术，包括：在线微调、特征匹配和图优化，以及具有代表性的工作。Section4.4、Section4.5和Section4.6介绍了时间特征技术，包括：光流、掩膜传播和长时时间信息，以及具有代表性的工作。

Section_4_1_Online_methods