Deep Learning for 3D Point Clouds A Survey

ZhuYuanxiang 2023-09-13 13:50:57
Categories: Tags:

参考资料

https://blog.csdn.net/dxzysk/article/details/114363233

3D点云深度学习综述Deep Learning for 3D Point Clouds: A Survey

作者:Yulan Guo, Hanyun Wang, Qingyong Hu, Hao Liu, Li Liu, and Mohammed Bennamoun

译者:dxzysk     译者注:本文仅是对原论文的翻译,作为学习笔记仅供记录、参考学习使用,建议阅读作者的英文原文。

原论文链接:https://arxiv.org/abs/1912.12033

摘要

点云学习在计算机视觉、自动驾驶、机器人等领域有着广泛的应用,近年来受到越来越多的关注。深度学习作为人工智能中的一种主流技术,已经成功地应用于解决各种2D视觉问题。但是,由于用深度神经网络处理点云所面临的独特挑战,点云上的深度学习仍处于起步阶段。近年来,关于点云的深入学习开始流行起来,已提出了许多方法来解决该领域的不同问题。为了促进未来的研究,本文对点云的深度学习方法的最新进展进行了全面的回顾。涵盖了三个主要任务,包括3D形状分类、3D目标检测与跟踪和3D点云分割。提供了一些公开数据集的比较结果,以及对未来研究方向的见解和启发。

关键词

深度学习,点云,三维数据,形状分类,形状检索,目标检测,目标跟踪,场景流,实例分割,语义分割,零件分割。

1         引言

随着3D采集技术的快速发展,3D传感器的可用性和价格越来越便宜,包括各种类型的3D扫描仪、激光雷达和RGB-D相机(如Kinect、RealSense和Apple深度相机)[1]。这些传感器采集的3D数据可以提供丰富的几何、形状和尺度信息[2]、[3]。通过2D图像的补充,3D数据提供了一个更好地了解机器周围环境的机会。3D数据在不同领域有着广泛的应用,包括自动驾驶、机器人技术、遥感和医疗[4]。

3D数据通常可以用不同的格式表示,包括深度图像、点云、网格和体积网格。点云表示作为一种常用的表示格式,在不进行离散化的情况下,保留了三维空间中的原始几何信息。因此,它是许多场景理解相关应用(如自动驾驶和机器人)的首选表示形式。近年来,深度学习技术已成为计算机视觉、语音识别、自然语言处理等领域的研究热点。但是,3D点云的深度学习仍然面临着一些重大挑战[5],例如数据集规模小,维数高和3D点云的非结构化性质。在此基础上,本文重点分析用于处理3D点云的深度学习方法。

特别是近五年来,点云的深度学习越来越受到人们的关注。还发布了一些公开可用的数据集,例如ModelNet[6],ScanObjectNN[7],ShapeNet[8],PartNet[9],S3DIS[10]、ScanNet[11]、Semantic3D[12]、ApolloCar3D[13]和KITTI Vision基准套件[14]、[15]。这些数据集进一步推动了对三维点云的深度学习研究,提出了越来越多的方法来解决与点云处理相关的各种问题,包括3D形状分类、3D目标检测与跟踪、3D点云分割、3D点云配准等,六自由度6-DOF姿态估计和三维重建[16],[17],[18]。很少有关于3D数据的深度学习调查,例如[19]、[20]、[21]、[22]。然而,我们的论文是第一个专门针对点云理解的深度学习方法的论文。图1显示了针对3D点云的现有深度学习方法的分类。

与现有文献相比,本文的主要贡献可概括如下:

1) 据我们所知,这是第一份调查报告,全面涵盖了几个重要的点云理解任务的深度学习方法,包括3D形状分类、3D目标检测和跟踪以及3D点云分割。

2) 与现有文献[19],[20]不同,我们特别关注3D点云的深度学习方法,而不是所有类型的3D数据。

3) 本文介绍了点云深度学习的最新进展。因此,它为读者提供了最新的方法。

4) 对几种公开数据集的现有方法进行了综合比较(如表2、3、4、5),并给出了简要总结和有见解的讨论。

 图1:3D点云深度学习方法分类。

本文的结构如下。第2节介绍了各个任务的数据集和评估指标。第3节回顾了三维形状分类的方法。第4节概述了现有的三维目标检测和跟踪方法。第5节回顾了点云分割的方法,包括语义分割、实例分割和零件分割。最后,第六部分对全文进行了总结。我们还提供定期更新的项目页面:https://github.com/QingyongHu/SoTA-Point-Cloud

2         背景

2.1       数据集集合

为了评估深度学习算法在不同3D点云应用中的性能,已经收集了大量的数据集。表1列出了一些用于3D形状分类、3D目标检测和跟踪以及3D点云分割的典型数据集。特别地,还总结了这些数据集的属性。

对于3D形状分类,有两种类型的数据集:合成数据集[6],[8]和真实世界数据集[7],[11]。合成数据集中的对象是完整的,没有任何遮挡和背景。与此相反,真实世界数据集中的物体被不同程度的遮挡,一些对象被背景噪声污染。

对于3D目标检测和跟踪,有两种类型的数据集:室内场景[11]、[25]和室外城市场景[14]、[28]、[30]、[31]。室内数据集中的点云要么从密集的深度图转换,要么从三维网格采样。室外城市数据集设计用于自动驾驶,其中对象在空间上很好地分离,并且这些点云是稀疏的。

对于3D点云分割,这些数据集由不同类型的传感器获取,包括移动激光扫描仪(MLS)[15]、[34]、[36]、航空激光扫描仪(ALS)[33]、[38]、静态地面激光扫描仪(TLS)[12]、RGBD相机[11]和其他3D扫描仪[10]。这些数据集可以用来开发各种挑战的算法,包括类似的干扰因素,形状不完整和类别不平衡。

2.2       评估指标

针对不同的点云理解任务,提出了不同的评估指标来测试这些方法。对于三维形状分类,总体精度(OA)和平均分类精度(mAcc)是最常用的性能标准。“ OA”代表所有测试实例的平均准确度,“ mAcc”代表所有形状类别的平均准确度。对于3D目标检测,平均精度(AP)是最常用的标准,它被计算为精确召回曲线下的面积。精度和成功率通常用于评估三维单目标跟踪器的整体性能。平均多目标跟踪精度(AMOTA)和平均多目标跟踪精度(AMOTP)是评价三维多目标跟踪效果最常用的指标。对于三维点云分割,OA、联合平均交集(mIoU)和平均类精度(mAcc)[10]、[12]、[15]、[36]、[37]是最常用的性能评估标准。特别地,平均平均精度(mAP)[39]也用于3D点云的实例分割。

3         3D形状分类

该任务的方法通常是先学习每个点的嵌入,然后使用聚合方法从整个点云中提取全局形状嵌入。最后通过将全局嵌入信息输入到几个完全连通的层中来实现分类。根据神经网络输入的数据类型,现有的三维形状分类方法可分为基于多视图的方法、基于体积的方法和基于点的方法。图2中展示出了几个里程碑方法。

基于多视图的方法将非结构化点云投影为2D图像,而基于体积的方法将点云转换为3D体积表示。然后,利用建立好的二维或三维卷积网络来实现形状分类。相反,基于点的方法直接处理原始点云,而不进行任何体素化或投影。基于点的方法不会引入明显的信息丢失并变得越来越流行。值得注意的是,本文主要关注基于点的方法,但为了完整起见,也包含了一些基于多视图和基于体积的方法。

表1:三维形状分类、三维目标检测和跟踪以及三维点云分割的现有数据集摘要。1用于评估的类的数量和注释类的数量(显示在括号中)。

图2:按时间顺序概述的最相关的基于深度学习的3D形状分类方法

3.1       基于多视图的方法

些方法首先将一个三维形状投影到多个视图中,提取视图特征,然后融合这些特征进行精确的形状分类。如何将多个视图特征聚合成一个有区别的全局表示形式是目前面临的一个关键挑战。

MVCNN[40]是一项开创性的工作,它简单地将多多视图功能最大程度地池化为一个全局描述符。但是,最大池仅保留特定视图中的最大元素,从而导致信息丢失。MHBN[41]通过协调双线性池来集成局部卷积特征,从而产生一个紧凑的全局描述符。Yang等人[42]首先利用关系网络来利用一组视图之间的相互关系(例如,区域关系和视图关系),然后将这些视图聚合以获得有区别的3D对象表示。此外,还提出了其他几种提高识别精度的方法[43]、[44]、[45]、[46]。与以前的方法不同,Wei等人[47]通过将多个视图视为grpah节点,在View-GCN中使用了有向图。然后将局部图卷积、非局部消息传递和选择性视图采样组成的核心层应用于构造的图。最后将各级最大池节点特征串联起来形成全局形状描述符。

3.2       基于体积的方法

这些方法通常将点云体素化为3D网格,然后将3D卷积神经网络(CNN)应用于3D空间的形状分类。

Maturana等人[48]引入了一种称为VoxNet的体积占用网络,以实现可靠的3D对象识别。Wu等人[6]提出了一种基于卷积深度置信度的3D ShapeNets,用于从各种3D形状(由体素网格上二进制变量的概率分布表示)中学习点的分布。虽然已经取得了令人鼓舞的性能,但是这些方法无法很好地扩展到密集的三维数据,因为计算和内存占用随着分辨率的增加呈三次方增长。

为此,引入了层次结构和紧凑结构(如八叉树)来降低这些方法的计算和内存开销。OctNet[49]首先使用混合网格八叉树结构对点云进行分层划分,该结构表示具有沿规则网格的几个浅八叉树的场景。采用位串表示法对八叉树结构进行有效编码,并通过简单的算法对每个体素的特征向量进行索引。Wang等人[50]提出了一种基于八叉树的CNN三维形状分类方法。将在最细叶片八分体中采样的得到的三维模型的平均法向量输入网络,并对三维形状曲面所占据的八分体应用3D-CNN。与基于密集输入网格的基线网络相比,OctNet对高分辨率点云所需的内存和运行时间要少得多。Le等人[51]提出了一种称为点网格(PointGrid)的混合网络,该网络集成了点和网格表示,以实现高效的点云处理。在每个嵌入的体网格单元中采样一定数量的点,使得网络能够通过三维卷积提取几何细节。Ben Shabat等人[52]将输入点云转化为三维网格,再由三维修正Fisher向量(3DmFV)方法表示,然后通过传统的CNN架构学习全局表示。

3.3       基于点的方法

根据用于每个点特征学习的网络结构,这类方法可分为逐点MLP、基于卷积,基于图,基于分层数据结构的方法和其他典型方法。

3.3.1        逐点MLP方法

这些方法使用几个共享的多层感知器(MLP)独立地对每个点建模,然后使用对称聚合函数聚合全局特征,如图3所示。

由于2D图像固有的数据不规则性,因此典型的2D图像深度学习方法无法直接应用于3D点云。作为一项开创性的工作,PointNet[5]直接将点云作为其输入并实现对称函数的置换不变性。具体来说,PointNet通过几个MLP层独立地学习逐点特性,并通过max-pooling层提取全局特性。深度集[53]通过对所有表示求和并应用非线性变换来实现置换不变性。由于对于PointNet [5]中的每个点都是独立学习特征的,因此无法捕获点之间的局部结构信息。因此,Qi等人[54]提出了一种分层网络PointNet++来捕捉每个点的邻域中的精细几何结构。作为PointNet++层次结构的核心,其集合抽象层由三层组成:采样层、分组层和基于PointNet的学习层。通过堆叠多个集合抽象级别,PointNet++从局部几何结构中学习特征,并逐层抽象局部特征。

图3:PointNet的轻量级架构。n表示输入点的数量,M表示每个点的学习特征的尺寸。

由于其简单性和强大的表示能力,许多网络都是基于PointNet开发的[5]。Mo-Net[55]的体系结构类似于PointNet[5] 但它需要一组有限的力矩作为输入。Point Attention Transformers(PAT)[56]通过利用其自身的绝对位置和相对于相邻点的相对位置来表示每个点,并通过MLP学习高维特征。然后,利用Group Shuffle Attention(GSA)来捕捉点之间的关系,并建立一个置换不变、可微、可训练的端到端Gumbel Subset Sampling (GSS)层来学习层次特征。基于PointNet++[54],PointWeb[57]利用局部邻域的上下文,使用自适应特征调整 Adaptive Feature Adjustment (AFA)改进点特征。Duan等人[58]提出了一种结构关系网络Structural Relational Network(SRN),利用MLP学习不同局部结构之间的结构关系特征。Lin等人[59]通过为PointNet学习的输入空间和函数空间构造一个查找表,加速了推理过程。在ModelNet和ShapeNet数据集上的推理时间比普通机器上的PointNet快了1.5ms和32倍。SRINet[60]首先投影点云以获得旋转不变的表示,然后利用基于PointNet的主干提取全局特征,利用基于图的聚合提取局部特征。在PointASNL中,Yan等人[61]利用自适应采样Adaptive Sampling(AS)模块自适应调整最远点采样Furthest Point Sampling (FPS)算法采样点的坐标和特征,并提出了一种局部非局部local-nonlocal (L-NL)模块来捕获局部和远距离这些采样点的依赖性。

3.3.2        基于卷积的方法

与在二维网格结构(例如图像)上定义的内核相比,由于点云的不规则性,难以设计用于三维点云的卷积内核。。根据卷积核的类型,目前的三维卷积方法可分为连续卷积和离散卷积,如图4所示。

图4:点的局部邻域的连续和离散卷积的图示。(a) 表示以点为中心的局部邻域;(b)和(c)分别表示三维连续卷积和离散卷积。

三维连续卷积方法。这些方法在连续空间上定义卷积核,其中相邻点的权重与相对于中心点的空间分布有关。

三维卷积可以解释为给定子集上的加权和。作为RS-CNN的核心层[62],RSConv以某一点周围的局部点子集为输入,通过学习点之间从低级关系(如欧氏距离和相对位置)到高级关系的映射,利用MLP实现卷积。在[63]中,内核元素是在单位球体中随机选择的。然后利用基于MLP的连续函数建立核元素位置与点云的关系。在DensePoint[64]中,卷积被定义为带有非线性激活器的单层感知器(SLP)。通过连接所有先前层的特征以充分利用上下文信息来学习特征。Thomas等人[65]使用一组可学习的内核点为3D点云提出了刚性和可变形的内核点卷积(KPConv)运算符。ConvPoint[66]将卷积核分为空间部分和特征部分。从单位球体中随机选择空间部分的位置,并通过简单的MLP学习加权函数。

有些方法还使用现有的算法来执行卷积。在PointConv[67]中,卷积定义为相对于重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数(通过MLP层学习)和密度函数(通过核化密度估计和MLP层学习)组成。为了降低存储空间占用和提高计算效率,将三维卷积进一步简化为矩阵乘法和二维卷积两种运算。在相同的参数设置下,其内存消耗可减少64倍左右。在MCCNN[68]中,卷积被认为是依赖于样本的密度函数(由MLP实现)的蒙特卡洛估计过程。然后使用Poisson disk sampling 采样来构建点云层次结构。该卷积算子可用于在两个或多个采样方法之间执行卷积,并可处理不同的采样密度。在SpiderCNN[69]中,提出了SpiderConv来定义卷积,将卷积定义为在k个最近邻居上定义的阶跃函数和泰勒展开式的乘积。阶跃函数通过对局部测地距离进行编码来捕获粗略的几何形状,泰勒展开通过在立方体顶点处插值任意值来获取局部几何的内在变化。此外,还提出了基于径向基函数的三维点云卷积网络PCNN[70]。

已经提出了几种方法来解决3D卷积网络面临的旋转等变问题。Esteves等人[71]提出了3D球形CNN来学习3D形状的旋转等变表示,它以多值球形函数作为输入。通过在球形谐波域中使用锚点对频谱进行参数化来获得局部卷积滤波器。提出了张量场网络[72],将点卷积运算定义为可学习的径向函数和球谐函数的乘积,它们局部等价于3D旋转,平移和置换。[73]中的卷积是基于球面互相关定义的,并使用广义快速傅立叶变换(FFT)算法实现。SPHNet[74]基于PCNN,通过在体积函数的卷积过程中合并球谐函数内核来实现旋转不变性。

为了加快计算速度,Flex-Convolution[75]将卷积核的权重定义为k个最近邻居上的标准标量积,可以使用CUDA进行加速。实验结果证明了它在具有较少参数和较低内存消耗的小型数据集上获得较好的性能。

三维离散卷积方法。这些方法在规则网格上定义卷积核,其中相邻点的权重与相对于中心点的偏移量有关。

Hua等人[76]将非均匀的3D点云转化为均匀网格,并在每个网格上定义卷积核。所提出的三维核为落入同一网格的所有点分配相同的权重。对于给定的点,从上一层开始计算位于同一网格上的所有相邻点的平均特征。然后,对所有网格的平均特征进行加权和求和,得到当前层的输出。Lei等人[77]定义了一个球形卷积核,将一个3D球形相邻区域划分为多个体积单元,并将每个单元与一个可学习的加权矩阵相关联。一个点的球形卷积核的输出由其相邻点的加权激活值的平均值的非线性激活决定。在GeoConv[78]中,一个点与其相邻点之间的几何关系是基于六个基底显式建模的。沿基的每个方向的边缘特征由方向相关的可学习矩阵独立加权。然后,根据给定点与其相邻点形成的角度,对这些方向相关特征进行聚合。对于给定的点,其在当前层的特征被定义为给定点的特征与上一层的相邻边缘特征之和。

PointCNN[79]通过χ-conv变换(通过MLP实现)将输入点转换为潜在的规范序,然后在转换后的特征上应用典型的卷积算子。通过将点特征插值到相邻的离散卷积核权坐标,Mao等人[80]提出了一种插值卷积算子InterpConv来度量输入点云与核权坐标之间的几何关系。Zhang等人[81]提出了一种RIConv算子来实现旋转不变性,该算子以低阶旋转不变性几何特征为输入,通过简单的分块方法将卷积转化为一维。A-CNN[82]定义了一个环形卷积,通过循环查询点的每个环上的内核大小的相邻数组,并学习局部子集中相邻点之间的关系。

为了降低3D CNN的计算和存储成本,Kumawat等人[83]提出了一种基于三维短时傅立叶变换(STFT)的局部相位校正体Rectified Local Phase Volume(ReLPV)块来提取三维局部邻域中的相位,大大减少了参数的数量。在SFCNN[84]中,点云被投影到具有对齐球坐标的规则二十面体晶格上。然后,通过卷积-最大池化卷积结构,对球形晶格的顶点与其邻域的特征进行卷积。SFCNN能抵抗旋转和扰动。

3.3.3        基于图形的方法

基于图的网络将点云中的每个点视为图的顶点,并基于每个点的邻域为图生成有向边。然后在空间或光谱域中执行特征学习[85]。典型的基于图的网络如图5所示。

图5:基于图的网络的示意图。

空间域中基于图的方法。这些方法在空间域中定义操作(例如,卷积和池化)。具体来说,卷积通常是通过空间邻域上的MLP来实现的,并且通过合并来自每个点的邻居的信息来采用池化以生成新的粗化图。每个顶点上的特征通常分配有坐标、激光强度或颜色,而每个边上的特征通常分配有两个连接点之间的几何属性。

作为开创性的工作,Simonovsky等[85]将每个点视为图的一个顶点,并通过有向边将每个顶点连接到它的所有邻居。然后,利用一个滤波器生成网络(如MLP)提出了边缘条件卷积(ECC)。采用最大池聚合邻域信息,基于VoxelGrid实现图形粗化[86]。在DGCNN[87]中,在特征空间中构造一个图,并在网络的每一层之后进行动态更新。作为EdgeConv的核心层,MLP被用作每个边缘的特征学习函数,并对与每个点的邻域相关联的边缘特征进行channel-wise通道式对称聚合。此外,LDGCNN[88]删除了转换网络,并将DGCNN[87]中不同层的层次特征链接起来,以提高其性能并减小模型尺寸。还提出了一种端到端的无监督深度自编码网络(即FoldingNet[89]),它利用向量化局部协方差矩阵和点坐标的级联作为输入。受到Inception[90]和DGCNN[87]的启发,Hassani和Haley[91]提出了一种无监督多任务自动编码器来学习点和形状特征。编码器是基于多尺度图构造的。解码器由聚类、自监督分类和重构三个无监督任务构成,这些任务与多任务损失一起进行训练。Liu等人[92]提出了一种基于图卷积的动态点凝聚模块Dynamic Points Agglomeration Module (DPAM),将点凝聚过程(采样、分组和池化)简化为一个简单的步骤,该步骤通过将集聚矩阵与点特征矩阵相乘来实现。在PointNet架构的基础上,通过对多个DPAM的叠加,构造了一种分层学习架构。与PointNet++[54]的层次结构策略相比,DPAM动态地利用了语义空间中的点和聚集点之间的关系。

为了利用局部几何结构,KCNet[93]基于核相关学习特征。KCNet [93]基于核相关性学习特征。具体而言,将表征局部结构的几何类型的一组可学习点定义为核。然后,计算核与给定点邻域之间的亲和力。在G3D[94]中,卷积定义为邻接矩阵多项式的变体,池化定义为将拉普拉斯矩阵和顶点矩阵乘以一个粗化矩阵。ClusterNet [95]利用严格的旋转不变性模块从每个点的k个最近邻居中提取旋转不变性特征,并基于具有监督关联标准的无监督聚集层次聚类方法构造点云的层次结构[96]。每个子簇中的特征首先通过EdgeConv块学习,然后通过最大池聚合。

为了解决现有数据结构化方法(如FPS和邻居点查询)的耗时问题,Xu等人[97]提出融合基于体积和基于点的方法的优点来提高计算效率。在ModelNet分类任务上的实验表明,提出的Grid-GCN网络的计算效率平均比其他模型快5倍。

谱域中基于图的方法。这些方法将卷积定义为频谱滤波,是通过将图上的信号与图拉普拉斯矩阵的特征向量相乘来实现的[98],[99]。

RGCNN[100]通过将每个点与点云中的所有其他点连接起来来构造一个图,并更新每个层中的图形拉普拉斯矩阵。为了使相邻顶点的特征更加相似,在损失函数中添加了先验图信号平滑度。为了解决数据的不同图形拓扑所带来的挑战,AGCN[101]中的SGC-LL层利用一个可学习的距离度量来参数化图形上两个顶点之间的相似性。利用高斯核和学习距离对从图中得到的邻接矩阵进行归一化。HGNN[102]通过在超图上应用谱卷积建立了一个超边卷积层。

前面提到的方法在全图上操作。为了利用局部结构信息,Wang等人[103]提出了一种端到端谱卷积网络LocalSpecGCN来处理局部图(由k个最近的邻居构造而成)。此方法不需要对图拉普拉斯矩阵和图粗化层次进行任何离线计算。在PointGCN[104]中,基于来自点云的k个最近邻居构建图,并使用高斯核对每条边进行加权。卷积滤波器定义为图谱域的切比雪夫Chebyshev多项式。全局池和多分辨率池用于捕获点云的全局和局部特征。Pan等人[105]通过在卷积域中的k个最邻近图上应用卷积,提出了3DTI-Net。通过从相对的欧几里得距离和方向距离中学习,可以实现几何变换的不变性。

3.3.4        基于层次数据结构的方法

这些网络是基于不同的层次数据结构(如八叉树和kd树)构建的。在这些方法中,点特征是沿着树从叶节点到根节点分层学习的。

Lei等人[77]提出了一种使用球形卷积核的八叉树引导的CNN(如第3.3.2节所述)。网络的每一层都对应于八叉树的一层,并且在每一层都应用了球形卷积核。当前层神经元的值被确定为前一层所有相关子节点的平均值。与基于八叉树的八叉网OctNet[49]不同,Kd网Kd-Net[106]是使用多个K-d树构建的,每个树在每次迭代时具有不同的分割方向。按照自下而上的方法,使用MLP根据非子节点的子代表示来计算非子节点的表示。最后将根节点(描述整个点云)的特征输入给完全连接的层来预测分类分数。注意,Kd-Net根据节点的拆分类型在每个级别共享参数。3DContextNet[107]使用标准的平衡K-d树来实现特征学习和聚合。在每个层次上,点特征首先通过MLP基于局部线索(对局部区域中点之间的相互依赖性建模)和全局上下文线索(对一个位置相对于所有其他位置的关系建模)来学习点的特征。然后,使用MLP从非叶节点的子节点计算出非叶节点的特征,并通过max-pooling进行聚合。对于分类,重复上述过程直到获得根节点。

SO-Net网络的层次结构是通过执行点到节点k最近邻居搜索来构建的[108]。具体而言,利用一种改进的置换不变自组织图 Self-Organizing Map(SOM)对点云的空间分布进行建模。通过一系列完全连接的层,从归一化的点到节点坐标中学习单个点的特征。SOM中每个节点的特征是使用通道方式最大池从与此节点关联的点特征中提取的。然后使用类似于PointNet[5]的方法从节点特征中学习最终特征。与PointNet ++ [54]相比,SOM的层次结构效率更高,并且可以充分利用点云的空间分布。

3.3.5        其他方法

此外,还提出了许多其他方案。RBFNet[113]通过将稀疏分布的径向基函数(RBF)核的特征与可学习的核位置和大小进行聚合,显式地对点的空间分布进行建模。3DPointCapsNet[112]通过逐点MLP和卷积层学习与点无关的特征,并通过多个最大池层提取全局潜在表示。在无监督动态路由的基础上,学习具有代表性的潜在容器。Qin等人[116]提出了一种用于3D点云表示的端到端无监督域自适应网络PointDAN。为了获取点云的语义特征,提出了一种自监督的点云重构方法,对点云的各个部分进行了随机重组[117]。Li等人[118]提出了一个自动增强框架PointAugment,用于自动优化和增强用于网络训练的点云样本。具体而言,将自动学习每个输入样本的形状变换和点位移,并通过交替优化和更新其扩充器和分类器的可学习参数来训练网络。受形状上下文[119]的启发,Xie等人[109]提出了一种ShapeContextNet体系结构,该方法通过将亲和点选择和紧凑的特征聚合结合起来,,使用点积自我注意[120]进行软对齐操作。为了处理三维点云中的噪声和遮挡,Bobkov等人[121]将手工制作的基于点对函数的4D旋转不变描述符输入4D卷积神经网络。Prokudin等人[122]首先从单位球中随机采样均匀分布的基点集,然后将点云编码为到基点集的最小距离。因此,将点云转换为具有相对较小固定长度的向量。编码后的表示形式可以用现有的机器学习方法进行处理。

RCNet[115]利用标准的RNN和2D-CNN构造一个置换不变网络,用于3D点云处理。首先将点云划分成平行波束,并按特定的维数进行排序,然后将每个波束送入一个共享的RNN。将学习到的特征进一步反馈到一个高效的二维CNN中进行分层特征聚合。为了提高其描述能力,提出将多个RCNet-E沿着不同的划分和排序方向进行集成。Point2Sequences[114]是另一个基于RNN的模型,它捕获点云局部区域中不同区域之间的相关性。它把从局部区域以多个尺度学习的特征视为序列,并将这些序列从所有局部区域馈送到基于RNN的编码器-解码器结构中,以聚合局部区域特征。

有几种方法也从三维点云和二维图像中学习。在PVNet[110]中,从多视点图像中提取的高层次全局特征通过嵌入网络投影到点云子空间,并通过软关注蒙版与点云特征融合。最后,对融合特征和多视点特征采用残差连接进行形状识别。随后,PVRNet[111]进一步提出通过关系评分模块来利用三维点云与其多视图之间的关系。基于关系得分,原始的2D全局视图功能得到了增强,可用于点单视图融合和点多视图融合。

表2:ModelNet10/40基准上的比较3D形状分类结果。在这里,我们只关注基于点的网络,‘’#params‘’表示模型的参数数量,‘’OA‘’表示所有测试实例的平均精度,‘’mAcc‘’表示表中所有形状类的平均精度。符号“-”表示结果不可用。



3.4       小结

ModelNet10/40[6]数据集是3D形状分类最常用的数据集。表2显示了不同基于点的网络所获得的结果。 可以得出以下几点结论:

4         三维目标检测与跟踪

在本节中,我们将回顾现有的三维目标检测、三维目标跟踪和三维场景流估计方法。

4.1       三维目标检测

典型的3D对象检测器将场景的点云作为其输入,并在每个检测到的对象周围生成一个定向的3D边界框,如图6所示。类似于图像中的目标检测[123],三维目标检测方法可以分为两类:基于区域建议Region Proposal的方法和单步法Single Shot 方法。图7给出了几个里程碑方法。

(a) ScanNetV2[11]数据集  (b)KITTI[14]数据集

图6:3D对象检测的示意图。(a) 和(b)分别显示在[124]和[125]中。


图7:按时间顺序概述的最相关的基于深度学习的3D对象检测方法

4.1.1   基于Region Proposal区域建议的方法

这些方法首先提出几个可能包含对象的区域(也称为建议),然后提取区域特征来确定每个建议区域的类别标签。根据它们的对象建议生成方法,这些方法可以进一步分为三类:基于多视图的方法、基于分割的方法和基于视锥的方法。

基于多视图的方法。这些方法融合来自不同视图(例如,LiDAR前视图、鸟瞰视图(BEV)和图像)的建议特征,以获得3D旋转框,如图8(a)所示。这些方法的计算成本通常很高。

Chen等人[4]从BEV地图生成了一组高精度的3D候选框,并将其投影到多视图的特征图上(例如,LiDAR前视图像、RGB图像)。然后,他们将这些来自不同视图的区域特征组合起来,以预测定向三维边界框,如图8(a)所示。尽管此方法仅在300个提议的情况下在0.25的交并比(IoU)上实现了99.1%的召回率,但实际应用中速度太慢。随后,从两个方面对多视图三维目标检测方法进行了改进。

首先,已经提出了几种方法来有效地融合不同模态的信息。为了生成对小对象具有高召回率的3D提议,Ku等人[126]提出了一种基于多模态融合的区域提议网络。他们首先使用裁剪和缩放操作从BEV和图像视图中提取大小相等的特征,然后使用逐元素平均池化融合这些特征。Liang等人[127]利用连续卷积实现了不同分辨率下图像和3D激光雷达特征图的有效融合。具体地说,他们提取了BEV空间中每个点的最接近的对应图像特征,然后使用双线性插值法将图像特征投影到BEV平面中以获得密集的BEV特征图。实验结果表明,密集BEV特征图比离散图像特征图和稀疏LiDAR特征图更适合于三维目标检测。Liang等人[128]提出了一种用于端到端训练的多任务多传感器三维目标检测网络。具体而言,利用多个任务(例如,二维目标检测、地面估计和深度补全)来帮助网络学习更好的特征表示。进一步利用所学习的跨模态表示来产生高精度的目标检测结果。实验结果表明,该方法在二维、三维和BEV检测任务上取得了显著的改进,并在TOR4D基准上优于现有的方法[129]、[130]。

其次,已经研究了不同的方法来提取输入数据的鲁棒表示。Lu等人[39]通过引入空间通道注意力(SCA)模块探索了多尺度上下文信息,该模块捕获场景的全局和多尺度上下文,并突出显示有用的特征。他们还提出了一个扩展的空间非采样(ESU)模块,通过结合多尺度低层特征来获取具有丰富空间信息的高层特征,从而生成可靠的3D对象建议。虽然可以获得更好的检测性能,但是上述多视图方法需要较长的运行时间,因为它们对每个方案执行特征池化。随后,Zeng等人[131]使用了预RoI池化卷积来提高[4]的效率。具体来说,他们将大部分卷积运算移到了RoI池化模块的前面。因此,对所有对象建议区域执行一次RoI卷积。实验结果表明,该方法的运行速度为11.1fps,是MV3D的5倍[4]。

基于分割的方法。这些方法首先利用现有的语义分割技术去除大部分背景点,然后在前景点上生成大量高质量的建议以节省计算量,如图8(b)所示。与多视点方法[4]、[126]、[131]相比,这些方法获得了更高的目标召回率,更适用于具有高度遮挡和拥挤目标的复杂场景。

Yang等人[132]使用2D分割网络来预测前景像素,并将其投影到点云中以去除大部分背景点。然后,他们在预测的前景点上生成建议,并设计了一个新的标准PointsIoU来减少建议的冗余和模糊性。继[132]之后,Shi等人[133]提出了PointRCNN框架。具体来说,他们直接分割三维点云获得前景点,然后融合语义特征和局部空间特征生成高质量的3D框。继[133]的区域建议网络(RPN)阶段之后,Jesus等人[134]提出了利用图卷积网络(GCN)进行3D目标检测的开创性工作。具体来说,引入了两个模块来使用图卷积细化对象建议。第一个模块R-GCN利用提案中包含的所有点来实现每个提案的特征聚合。第二个模块C-GCN将所有提案中的每帧信息融合在一起,以通过利用上下文来回归准确的对象框。Sourabh等人[135]将点云投影到基于图像的分割网络的输出中,并将语义预测分数附加到点上。绘制的点被输入现有的检测器[133]、[136]、[137],以实现显著的性能改进。Yang等人[138]将每个点与一个球形锚点相关联。然后使用每个点的语义得分来移除多余的锚。因此,与以前的方法[132],[133]相比,这种方法以更低的计算成本实现了更高的查全率。此外,提出了一个PointsPool层来学习建议中内部点的紧凑特征,并引入了一个并行的IoU分支来提高定位精度和检测性能。

基于视锥的方法。这些方法首先利用现有的2D对象检测器来生成对象的2D候选区域,然后为每个2D候选区域提取3D视锥建议,如图8(c)所示。尽管这些方法可以有效地建议3D对象的可能位置,但分步流水线使其性能受到2D图像检测器的限制。

F-PointNets[139]是这方面的一项开创性工作。它为每个2D区域生成一个视锥提案,并应用PointNet [5](或PointNet ++ [54])来学习每个3D视锥的点云特征,以进行模态3D框估计。在后续工作中,Zhao等人。 [140]提出了一个Point-SENet模块来预测一组比例因子,这些比例因子进一步用于自适应地突出有用的特征和抑制信息较少的特征。他们还将PointSIFT[141]模块集成到网络中,捕获点云的方向信息,实现了对形状缩放的强大鲁棒性。与F-PointNets[139]相比,这种方法在室内和室外数据集[14],[25]上都取得了显著的改善。

Xu等人[142]利用2D图像区域及其对应的视锥点精确回归3D框。为了融合点云的图像特征和全局特征,他们提出了用于框角位置直接回归的全局融合网络。他们还提出了一种密集融合网络,用于预测每个角点的逐点偏移。Shin等人[143]首先从2D图像中估计物体的2D边界框和3D姿态,然后提取多个几何上可行的候选物体。这些三维候选对象被输入到一个边框回归网络中,以预测精确的三维对象边界框。Wang等人[144]沿着截头圆锥体轴为每个2D区域生成了一系列截头圆锥体,并应用PointNet[5]为每个截头圆锥体提取特征。对截头圆锥体级特征进行重构,生成二维特征图,然后将其送入全卷积网络进行3D框估计。此方法在基于2D图像的方法中实现了最先进的性能,并在KITTI官方排行榜中排名第一。Johannes等人[145]首先在BEV图上获得了初步的检测结果,然后根据BEV预测提取了小点子集(也称为补丁块)。应用局部优化网络来学习补丁的局部特征,以预测高度准确的3D边界框。

其他方法。得益于轴对齐的IoU在图像目标检测中的成功推动,Zhou等人[146]将两个3D旋转边界框的IoU集成到多个最先进的检测器中[133]、[137]、[158],以实现一致的性能改进。Chen等人[147]提出了一种两阶段网络架构,使用点云和体素表示。首先,对点云进行体素化,并将其输入到三维主干网络中,以产生初始检测结果。其次,进一步利用初始预测的内点特征进行边界框细化。虽然这个设计概念简单,但在保持16.7 fps速度的同时,仍可达到[133]的性能。Shi等人[148]提出了PointVoxel-RCNN(PV-RCNN)以利用3D卷积网络和基于PointNet的集合抽象来学习点云特征。具体来说,首先对输入点云进行体素化,然后将其输入到三维稀疏卷积网络中,生成高质量的建议区域。然后通过体素集抽象模块将学习到的体素特征编码成一组关键点。此外,他们还提出了一个从关键点到网格的ROI抽象模块来捕获丰富的上下文信息,以进行框优化。实验结果表明,该方法比以往的方法有显著的优势,在KITTI三维检测基准类中排名第一。_(排名是指提交时间:2020年6月12日)_

受基于Hough投票的2D对象检测器的启发,Qi等人[124]提出了VoteNet直接对点云中对象的虚拟中心点进行投票的方法,并通过汇总投票特征来生成一组高质量的3D对象建议。VoteNet显著优于以前仅使用几何信息的方法,并且实现了在两个大型室内基准(即ScanNet[11]和SUN RGB-D[25])上的最先进性能。然而,对于部分遮挡的目标,虚拟中心点的预测是不稳定的。此外,Feng等人[149]增加了方向向量的辅助分支,以提高虚拟中心点和3D候选框的预测精度。此外,还建立了提案之间的三维对象-对象关系图,以突出有用的特征,实现准确的目标检测。Qi等人[150]提出了一种ImVoteNet检测器,它将2D对象检测线索(例如,几何和语义/纹理线索)融合到3D投票管道中。受3D对象的地面真值框提供对象内部部分的精确位置这一观察结果的启发,Shi等人[151]提出了由零件感知阶段和零件聚合阶段组成的Part-A2 Net。零件感知阶段应用类似于UNet的[165]网络,使用稀疏卷积和稀疏反卷积来学习用于预测和粗略生成对象内部零件位置的逐点特征。零件聚合阶段采用RoI感知池来聚合预测的零件位置,以进行边间框优化。

图8:三类基于区域建议的三维目标检测方法的典型网络。自上而下:(a)基于多视图,(b)基于分割和(c)基于视锥的方法。

4.1.2        基于Single Shot 单步方法

这些方法利用阶段网络直接预测分类概率,回归对目标的3D边界框。它们不需要区域建议生成和后处理。因此,它们可以高速运行。根据输入数据的类型,Single Shot 方法可分为三类:基于BEV的方法、基于离散化的方法和基于点的方法。

基于BEV****的方法。这些方法主要以BEV表示作为输入。Yang等人[129]将具有等间距单元的场景的点云离散化,并以类似的方式对反射率进行编码,从而得到规则的表示。然后利用完全卷积网络(FCN)估计目标的位置和航向角。该方法在28.6fps的速度下优于大多数Single Shot 方法(包括VeloFCN[154]、3D-FCN[155]和Vote3Deep[156])。后来,Yang等人[152]利用高清(HD)地图提供的几何和语义先验信息来提高[129]的鲁棒性和检测性能。具体来说,他们从高清地图中获得地面点的坐标,然后使用相对于地面的距离作为BEV表示,以弥补道路坡度造成的平移差异。此外,他们还沿通道维度将BEV表示与二进制道路掩码连接起来,以专注于移动物体。由于高清地图并非随处可用,他们还提出了一个在线地图预测模块,从单个激光雷达点云估计地图先验值。这种mapaware方法在TOR4D[129]、[130]和KITTI[14]数据集上显著优于其基线。然而,其对不同密度点云的泛化性能较差。为了解决这个问题,Beltran等人提出了一个归一化图来考虑不同激光雷达传感器之间的差异。归一化图是一个与BEV图具有相同分辨率的2D网格,并且对每个单元中包含的最大点数进行编码。结果表明,这种归一化映射显著提高了基于BEV的检测器的泛化能力。

基于离散化的方法。这些方法将点云转化为规则的离散表示,然后应用CNN预测物体的类别和3D框。

Li等人[154]提出了第一种使用FCN进行3D目标检测的方法。他们将点云转换成二维点图,并使用二维FCN来预测目标的边界框和置信度。后来,他们[155]将点云离散为具有长、宽、高和通道尺寸的4D张量,并将基于2D FCN的检测技术扩展到3D域,用于3D目标检测。与文献[154]相比,基于3D-FCN的方法[155]的准确性提高了20%以上,但是由于3D卷积和数据的稀疏性,不可避免地花费了更多的计算资源。为了解决体素的稀疏性问题,Engelcke等人[156]利用以特征为中心的投票方案为每个非空体素生成一组投票,并通过累积投票获得卷积结果。它的计算复杂度与占用的体素数量成正比。Li等人[157]通过堆叠多个稀疏的3D CNN构建了一个3D骨干网络。该方法充分利用了体素的稀疏性,节省了内存,加快了计算速度。该3D主干网络提取了丰富的3D特征用于目标检测,而不引入沉重的计算负担。

Zhou等人[136]提出了一种基于体素的端到端可训练框架体素网VoxelNet。他们将点云划分成等距的体素,并将每个体素内的特征编码成4D张量。然后连接区域建议网络以产生检测结果。虽然它的性能很强,但是由于体素的稀疏性和3D卷积,这种方法的速度非常慢。后来,Yan等人[158]使用稀疏卷积网络[166]来提高[136]的推理效率。他们还提出了一种正弦误差角损失法来解决0和\pi方向之间的模糊性。Sindagi等人[159]通过早期融合图像和点云特征扩展了体素网VoxelNet。具体来说,他们将[136]生成的非空体素投影到图像中,并使用预先训练的网络为每个投影体素提取图像特征。然后将这些图像特征与体素特征连接起来,以生成准确的3D框。与文献[136]、[158]相比,该方法能有效地利用多模态信息,减少误报和漏报。Lang等人[137]提出了一种名为PointPillars的3D目标检测器。该方法利用PointNet[5]学习以垂直列(柱状)组织的点云的特征,并将学习的特征编码为伪图像。然后应用二维目标检测管道来预测三维边界框。PointPillars在平均精度(AP)方面优于大多数融合方法(包括MV3D[4]、RoarNet[143]和AVOD[126])。此外,PointPillars可以在3D和BEV KITTI[14]基准上以62 fps的速度运行,非常适合实际应用。

在现有的Single Shot检测器的按比例缩小的特征图中,不可避免地会丢失点云的部分空间信息,受到这一观察结果的启发,He等人[160]提出了SA-SSD检测器,以利用细粒度结构信息来提高定位精度。具体地说,他们首先将点云转换为张量,然后将其输入主干网络以提取多级特征。此外,还采用了带有点级监督的辅助网络来指导特征学习点云的结构。 实验结果表明,SA-SSD在KITTI BEVdetection基准测试的汽车类中排名第一。(排名是指本论文提交时间:2020年6月12日)

基于点的方法。这些方法直接将原始点云作为输入。3DSSD[161]是这方面的一项开创性工作。介绍了一种用于距离FPS(D-FPS)和Feature-FPS(F-FPS)的融合采样策略,以去除耗时的特征传播Feature Propagation(FP)层和[133]中的优化模块。然后,利用候选生成层CandidateGeneration(CG)充分利用具有代表性的点,再将有代表性点输入到具有3D中心性质标签的anchor-free无锚回归头中,以预测3D目标框。实验结果表明,3DSSD在保持25fps的速度的同时,其性能优于two-stage point-based两阶段基于点的方法PointRCNN[133]。

其他方法。Meyer等人[162]提出了一种称为LaserNet的高效3D目标检测器。该方法预测每个点在边界框上的概率分布,然后再结合这些每个点的分布以生成最终的3D物体框。在此基础上,利用点云的稠密距离视图RangeView(RV)表示作为输入,提出了一种快速均值漂移算法来降低逐点预测产生的噪声。LaserNet在0到50米的范围内实现了最先进的性能,其运行时间明显低于现有方法。Meyer等人[163]随后扩展了LaserNet[162],以利用RGB图像提供的密集纹理(例如,50到70米)。具体来说,他们通过将三维点云投影到二维图像上,将激光雷达点与图像像素相关联,并利用这种关联将RGB信息融合到三维点中。他们还认为3D语义分割是学习更好的表示形式的辅助任务。该方法在保持LaserNet高效的同时,在远距离(如50-70米)目标检测和语义分割方面都取得了显著改善。孤立物体上的部分点可以提供关于物体位置和方向的丰富信息,受到这一观察结果的启发,Chen等人[164]提出了一种新的表示方法和第一个基于热点的anchor-free无锚检测器。具体来说,首先对原始点云进行体素化,然后将其输入主干网络以生成3D特征图。这些特征映射用于对热点进行分类并同时预测3D边界框。

注意,热点是在骨干网的最后一个卷积层分配的。实验结果表明,该方法对稀疏点云具有较好的鲁棒性。Shi等人[125]提出了图神经网络Point-GNN用于检测来自激光雷达点云的3D目标。他们首先将输入点云编码为具有固定半径的近邻图,然后将该图输入Point-GNN以预测对象的类别和框。

表3:KITTI test 3D检测基准上的对比3D目标检测结果。汽车的3D边界框IoU阈值为0.7,行人和自行车的为0.5。模式有激光雷达(L)和图像(I)“E”、“M”和“H”分别表示简单、中等和硬对象类。

为简单起见,我们省略了值后面的“%”。符号“-”表示结果不可用。

表4:KITTI test BEV检测基准上的比较3D目标检测结果。汽车的3D边界框IoU阈值为0.7,行人和自行车的为0.5。模式有激光雷达(L)和图像(I)“E”、“M”和“H”分别表示简单、中等和硬对象类。

为简单起见,我们省略了值后面的“%”。符号“-”表示结果不可用。

4.2       3D目标跟踪

给定目标在第一帧中的位置,目标跟踪的任务是估计其在后续帧中的状态[167],[168]。由于3D目标跟踪可以利用点云中丰富的几何信息,因此可以克服基于图像的跟踪所面临的遮挡、光照和尺度变化等问题。

受Siames网络[169]在基于图像的目标跟踪方面取得成功的启发,Giancola等人[170]提出了一种具有形状完成正则化的3D Siames网络。具体来说,他们首先使用卡尔曼滤波器生成候选,然后使用形状正则化将模型和候选编码成紧凑的表示形式。然后利用余弦相似性在下一帧中搜索被跟踪对象的位置。这种方法可以作为目标跟踪的一种替代方法,并且显著优于大多数2D目标跟踪方法,包括STAPLECA[171]和SiamFC[169]。为了有效地搜索目标对象,Zarzar等人[172]利用2D Siamese 网络在BEV表示上生成大量粗略的候选目标,然后,他们利用3D Siamese网络中的余弦相似性来细化候选目标。在精确度(即18%)和成功率(即12%)方面,该方法显著优于[170]。Simon等人[173]提出了一种语义点云的3D目标检测与跟踪体系结构。首先融合二维视觉语义信息生成体素化语义点云,然后利用时间信息提高多目标跟踪的精度和鲁棒性。此外,他们还引入了一个功能强大且简化的评估指标(即Scale-Rotation-Translation score (SRFs))来加速训练和推理。ComplexerYOLO实现了很好的跟踪性能,并且仍然可以实时运行。此外,Qi等人[174]提出了Point-to-Box (P2B)网络。他们将模板和搜索区域输入主干以获得种子。搜索区域种子在特定目标的特征得到增强,然后通过霍夫Hough投票对潜在的目标中心进行了回归。实验结果表明,P2B在40fps的速度下比[170]的性能提高了10%以上。

4.3       3D场景流估计

给定两个点云X和Y,3D场景流D=\{d_{i}\}^{^{N}}描述X中每个点x_{i}\epsilon X到其在Y中对应位置x_{i}^{'}\epsilon Y的运动,这样x_{i}^{'} = x_{i} +d_{i}。图9显示了两个KITTI点云之间的3D场景流。与2D视觉中的光流估计类似,已有几种方法开始从点云序列中学习有用的信息(如三维场景流、空间临时信息)。

图9:两个KITTI点云之间的3D场景流,最初如[175]所示。点云X、Y和X的平移点云分别以红色、绿色和蓝色突出显示。

Liu等人[175]提出FlowNet3D可以直接从一对连续的点云中学习场景流。FlowNet3D通过流嵌入层学习点级特征和运动特征。然而,FlowNet3D有两个问题:第一,一些预测的运动矢量在方向上与地面真实值有很大的差异。其次,对于非静态场景,特别是以可变形对象为主的场景,很难应用FlowNet。为了解决这个问题,Wang等人[176]引入了余弦距离损失,以最小化预测值和ground truth之间的夹角。此外,他们还提出了点到平面的距离损失,以提高刚性和动态场景的精度。实验结果表明,这两个损失项使FlowNet3D的精度从57.85%提高到63.43%,加快和稳定了训练过程。Gu等人[177]提出了一种分层的多面体格子流网Hierarchical Permutohedral Lattice FlowNet (HPLFlowNet),直接从大规模点云中估计场景流。提出了几个双边卷积层来恢复原始点云的结构信息,同时降低了计算成本。

为了有效地处理连续点云,Fan和Yang[178]提出了PointRNN、PointGRU和PointLSTM网络以及一个序列到序列模型来跟踪运动点。PointRNN、PointGRU和PointLSTM能够捕获空间临时信息并对动态点云进行建模。类似地,Liu等人[179]提出MeteorNet直接从动态点云学习表示。该方法学习从时空相邻点聚集信息。进一步引入直接分组和链式流分组来确定时间邻域。然而,上述方法的性能受到数据集规模的限制。Mittal等人[180]提出了两个自我监督的损失,以在大型未标记数据集上训练他们的网络。他们的主要思想是一个鲁棒的场景流估计方法应该在正向和反向预测中都是有效的。由于场景流标注的不可用性,将预测变换点的最近邻居视为伪ground truth。然而,真实的ground truth可能与最近的点不同。为了避免这个问题,他们计算了相反方向上的场景流,并提出了一个循环一致性损失,将点转换为原始位置。实验结果表明,这种自监督方法的性能优于其他基于监督学习的方法。

4.4       小结

KITTI[14]基准是自动驾驶领域最具影响力的数据集之一,已在学术界和工业界普遍使用。表3和表4显示了不同检测器在KITTI test 3D基准上获得的结果。可以观察到以下几点:

5         3D点云分割

三维点云分割需要了解全局几何结构和每个点的细粒度细节。根据分割粒度的不同,三维点云分割方法可分为三类:语义分割(场景级)、实例分割(对象级)和零件分割(零件级)。

5.1       3D语义分割

给定一个点云,语义分割的目的是根据点的语义将其划分为若干子集。与三维形状分类法(第3节)类似,语义分割有四种模式:基于投影、基于离散化、基于点和混合方法。

基于投影和离散化的方法的第一步都是将点云转换为中间规则表示,例如多视图[181]、[182]、球形[183]、[184]、[185]、体积[166]、[186]、[187]、permutohedral lattice[188]、[189]和混合表示[190]、[191],如图11所示。然后将中间分割结果投影回原始点云。相反,基于点的方法直接处理不规则点云。图10中展 示出了几种代表性方法。

图10:最相关的基于深度学习的三维语义分割方法的时间顺序概述。

5.1.1        基于投影的方法

这些方法通常将三维点云投影到二维图像中,包括多视图和球形图像。

多视图表示。Lawin等人[181]首先从多个虚拟摄像机视图将一个3D点云投影到2D平面上。然后,使用多流FCN预测合成图像的像素级分数。通过融合不同视图的重投影分数,得到每个点的最终语义标签。类似地,Boulch等人[182]首先使用多个相机位置生成了点云的几个RGB和深度快照。然后,他们使用2D分割网络对这些快照进行像素级标记。使用残差校正进一步融合从RGB和深度图像预测的分数[192]。基于点云是从局部欧氏曲面采样的假设,Tatarchenko等人[193]引入了切线卷积来进行密集点云分割。该方法首先将每个点周围的局部曲面几何体投影到一个虚拟切平面。然后直接对曲面几何体进行切线卷积运算。该方法具有很强的可扩展性,能够处理数百万万个点的大规模点云。总体而言,多视图分割方法的性能对视点选择和遮挡非常敏感。此外,由于投影步骤不可避免地导致信息丢失,这些方法没有充分利用底层的几何和结构信息。

球面表示法。为了实现三维点云的快速准确分割,Wu等人[183]提出了一种基于挤压网SqueezeNet [194]和条件随机场Conditional Random Field(CRF)的端到端网络。为了进一步提高分割精度,引入了SqueezeSegV2[184],利用无监督的域适配管道来解决域移位问题。Milioto等人[185]提出了RangeNet++用于激光雷达点云的实时语义分割。首先将二维距离图像的语义标签转换为三维点云,然后采用基于GPU的KNN后处理方法来减轻离散化错误和推理输出模糊的问题。与单视图投影相比,球面投影保留了更多的信息,适合于激光雷达点云的标定。然而,这种中间的表现形式不可避免地会带来离散化误差和遮挡等问题。

   

                                    (a) 多视图表示法                                                                                  (b)球面表示法

   

                                (c) 密集离散化表示                                                                                  (d)稀疏离散化表示

图11:中间表示的图示。(a) 和(b)最初分别显示在[182]和[183]中。

5.1.2        基于离散化的方法

这些方法通常将点云转换为密集/稀疏的离散表示,例如体积和稀疏的permutohedral lattices网格。

密集离散化表示。早期的方法通常将点云体素化为密集的网格,然后利用标准的三维卷积。Huang等人[195]首先将点云划分为一组占有率体素,然后将这些中间数据输入全三维CNN进行体素分割。最后,一个体素内的所有点都被赋予与该体素相同的语义标签。该方法的性能受到体素粒度和点云分割引起的伪边界的严重限制。此外,Tchapmi等人[196]提出了SEGCloud来实现细粒度和全局一致的语义分割。该方法引入确定性三线性插值,将3D-FCNN[197]生成的粗体素预测映射回点云,然后使用Fully Connected CRF(FCCRF)来增强这些推断的点标签的空间一致性。Meng等人[186]介绍了一种基于核的插值变分自动编码器结构,对每个体素中的局部几何结构进行编码。代替二进制占用表示,对每个体素采用RBF以获得连续表示并捕获每个体素中点的分布。VAE进一步用于将每个体素内的点分布映射到紧凑的潜在空间。然后,利用对称群和等价CNN来实现鲁棒特征学习。

由于3D CNN具有良好的可扩展性,基于Volumetric的网络可以在不同空间大小的点云上免费进行训练和测试。在完全卷积点网络(FCPN)[187]中,首先从点云中分层提取不同层次的几何关系,然后使用三维卷积和加权平均池化来提取特征并合并长序列依赖。该方法能处理大规模点云,推理过程中具有良好的可扩展性。Dai等人[198]提出ScanComplete以实现三维扫描完成和逐体素语义标注。该方法充分利用了全卷积神经网络的可扩展性,能够适应训练和测试过程中不同输入数据的大小。采用从粗到精的策略,分级提高预测结果的分辨率。

总的来说,体积表示自然地保留了三维点云的邻域结构。它的常规数据格式还允许直接应用标准的三维卷积。这些因素导致了该领域性能的稳定提高。然而,体素化步骤固有地引入了离散化伪像和信息丢失。通常,高分辨率会导致高内存占用和计算成本,而低分辨率会导致细节丢失。在实际应用中,选择合适的网格分辨率是非常重要的。

稀疏离散化表示。体积表示自然是稀疏的,因为非零值的数量只占很小的百分比。因此,在空间稀疏数据上应用稠密卷积神经网络的效率很低。为此,Graham等人[166]提出了基于索引结构的子流形稀疏卷积网络。该方法通过限制卷积的输出仅与占用的体素相关,显著地减少了内存和计算开销。同时,其稀疏卷积也可以控制提取特征的稀疏性。这种子流形稀疏卷积方法适用于高维空间稀疏数据的有效处理。此外,Choy等人[199]提出了一种称为MinkowskiNet的4D时空卷积神经网络,用于3D视频感知。为了有效地处理高维数据,提出了一种广义稀疏卷积算法。进一步应用三边平稳条件随机场来增强一致性。

另一方面,Su等人[188]提出了基于双边卷积层(BCLs)的稀疏点阵网络(SPLATNet)。该方法首先将原始点云插值到四面体的稀疏阵列上,然后对稀疏阵列的占据部分进行卷积。然后将滤波后的输出插值回原始点云。此外,该方法还可以对多视点图像和点云进行灵活的联合处理。此外,Rosu等人[189]提出了LatticeNet以实现对大型点云的有效处理。引入了DeformsSlice数据相关插值模块,将点阵特征反投影到点云上。

5.1.3        混合方法

为了进一步利用所有可用信息,已经提出了几种方法来从3D扫描中学习多模态特征。Dai和Nießner[190]提出了一种联合三维多视图网络,将RGB特征和几何特征结合起来。利用一个3D的CNN流和多个2D流进行特征提取,并提出一种可微反投影层来联合融合所学习的2D嵌入和3D几何特征。此外,Chiang等人[200]提出了一个统一的基于点的框架,从点云中学习2D纹理外观、3D结构和全局上下文特征。该方法直接应用基于点的网络从稀疏采样点集中提取局部几何特征和全局上下文,而无需任何体素化。Jaritz等人[191]提出了多视图PointNet(MVPNet)来聚合二维多视点图像的外观特征和规范点云空间中的空间几何特征。

5.1.4        基于点的方法

基于点的网络直接作用于不规则点云。然而,点云是无序和无结构的,因此无法直接应用标准的CNN。为此,提出了开拓性的工作PointNet [5],以使用共享MLP学习每点特征,并使用对称池功能来学习全局特征。基于PointNet,最近提出了一系列基于点的网络。总的来说,这些方法可以粗略地分为按点MLP方法,点卷积方法,基于RNN的方法和基于图的方法。

逐点MLP****方法。这些方法通常采用共享MLP作为网络的基本单元,效率较高。然而,由共享MLP提取的逐点特征无法捕捉点云的局部几何特征和点之间的相互作用[5]。为了获取每个点更广泛的上下文并学习更丰富的局部结构,引入了几种专用网络,包括基于相邻特征池、基于注意力的聚合和局部-全局特征拼接的方法。

                                  (a) 逐点MLP方法                                                                             (b)点卷积方法

  

                                (c) 基于RNN的方法                                                                          (d)基于图的方法

图12:基于点的方法的图示。(a) —(d)最初分别显示在[54]、[201]、[202]、[203]中。

_相邻特征池:_为了获取局部几何模式,这些方法通过聚集局部相邻点的信息来学习每个点的特征。尤其是,PointNet++[54]按层次对点进行分组,并从更大的局部区域中逐步学习,如图12(a)所示。提出了多尺度分组和多分辨率分组的方法,解决了点云的非均匀性和密度变化带来的问题。后来,Jiang等人[141]提出了一个PointSIFT模块来实现方向编码和尺度感知。该模块通过三级有序卷积对八个空间方向的信息进行叠加和编码。将多尺度特征串联起来,实现对不同尺度的自适应。与PointNet++中使用的分组技术(即ball查询)不同,Engelmann等人[204]利用K-均值聚类和KNN分别定义了世界空间和特征空间中的两个邻域。在假设同一类的点在特征空间中更接近的基础上,引入成对距离损失和质心损失来进一步正则化特征学习。为了模拟不同点之间的相互作用,Zhao等人[57]提出了PointWeb,通过密集地构建一个局部完全链接的web来探索局部区域中所有点对之间的关系。提出了一种自适应特征调整(AFA)模块来实现信息交换和特征细化。此聚合操作有助于网络学习判别式特征表示。Zhang等人[205]基于同心球壳的统计数据,提出了一种称为Shellconv的置换不变卷积。该方法首先查询一组多尺度同心球体,然后在不同的壳内使用最大池化运算进行统计汇总,最后使用MLP和一维卷积得到最终的卷积输出。Hu等人[206]提出了一种高效、轻量级的网络RandLA-Net,用于大规模点云分割。该网络采用随机点采样,在存储和计算方面具有非常高的效率。在此基础上,提出了一种局部特征聚合模块来捕获和保持几何特征。

_基于注意力的聚合:_为了进一步提高点云分割的精度,引入了注意机制[120]。Yang等人[56]提出了一个小组改组注意力以建模点之间的关系的方法,并提出了不变排列,任务不可知和可区分的Gumbel子集采样(GSS)来代替广泛使用的FPS方法。该模块对异常值的敏感性较小,可以选择具有代表性的点子集。为了更好地捕捉点云的空间分布,Chen等人[207]提出了一种局部空间感知(LSA)层,用于基于点云的空间布局和局部结构来学习空间感知权重。与CRF类似,Zhao等人[208]提出了一个基于注意力的分数细化(ASR)模块来对网络产生的分割结果进行后处理。通过将相邻点的分数与学习到的注意权值相结合,细化初始分割结果。该模块可以很容易地集成到现有的深度网络中,以提高分割性能。

_局部-__全局连接:_Zhao等人[112]提出了一种置换不变的PS2-Net,将点云的局部结构和全局上下文结合起来。Edgeconv[87]和NetVLAD[209]被反复叠加,以捕捉局部信息和场景级全局特征。

点卷积法。这些方法倾向于为点云提出有效的卷积算子。Hua等人[76]提出了一种逐点卷积算子,将相邻点合并到核单元中,然后用核权值进行卷积。如图12(b)所示,Wang等人[201]提出了一种基于参数连续卷积层的PCCN网络。该层的内核功能由MLP设置参数,跨越连续向量空间。Thomas等人[65]提出了一种基于核点卷积(KPConv)的核点全卷积网络(KP-FCNN)。具体地说,KPConv的卷积权值由到核点的欧氏距离决定,核点的数目不是固定的。核点的位置被公式化为球体空间中最佳覆盖率的优化问题。注意,半径邻域用于保持一致的感受野,而网格采样用于每个层,以在不同密度的点云下实现高鲁棒性。在[211]中,Engelmann等人提供了丰富的消融实验和可视化结果,展示了感受野对聚集方法性能的影响。他们还提出了一种扩展点卷积(DPC)操作来聚集扩展的相邻特征,而不是K个最近邻。事实证明,此操作在增加感受野方面非常有效,并且可以轻松地集成到现有的基于聚集的网络中。

基于RNN****的方法。为了从点云中获取固有的上下文特征,递归神经网络(RNN)也被用于点云的语义分割。基于PointNet[5],Engelmann等人[213]首先将一个点块转换为多尺度块和网格块,以获得输入级上下文。然后,将点网提取的分块特征依次输入合并单元(CU)或循环合并单元(RCU),得到输出级上下文。实验结果表明,结合空间上下文对提高分割性能具有重要意义。Huang等人[212]提出了一个轻量级的局部依赖建模模块,并利用切片池层将无序的点特征集转换为有序的特征向量序列。如图12(c)所示,Ye等人[202]首先提出了一个点式金字塔池(3P)模块来捕获从粗到细的局部结构,然后利用双向层次RNN进一步获得长远程的空间依赖性。然后应用RNN实现端到端学习。然而,这些方法在将局部邻域特征与全局结构特征进行融合时,失去了点云丰富的几何特征和密度分布[220]。为了缓解刚性池操作和静态池操作带来的问题,Zhao等人[220]提出了一种动态聚合网络(DARNet),以同时考虑全局场景复杂性和局部几何特征。利用自适应的感受野和节点权值动态地聚合中间特征。Liu等人[221]提出了3DCNN-DQN-RNN,用于大规模点云的有效语义分析。该网络首先利用三维CNN网络学习物体的空间分布和颜色特征,然后利用DQN对特定类别的物体进行定位。最后将拼接后的特征向量送入残差RNN中,得到最终的分割结果。

基于图的方法。为了捕捉三维点云的基本形状和几何结构,有几种方法借助于图网络。如图12(d)所示,Landrieu等人[203]将点云表示为一组相互关联的简单形状和超点,并使用属性有向图(即超点图)来捕获结构和上下文信息。然后,将大规模点云分割问题分解为三个子问题,即几何齐次分割、超点嵌入和上下文分割。为了进一步改进分割步骤,Landrieu和Boussaha[214]提出了一个监督框架,将点云过度分割为纯超点。该问题被描述为一个由邻接图构成的深度度量学习问题。此外,本文还提出了一种图形结构的对比损失方法来帮助识别物体之间的边界。

为了更好地捕捉高维空间中的局部几何关系,Kang等人[222]提出了一种基于图嵌入模块(GEM)和金字塔注意网络(PAN)的PyramNet。GEM模块将点云表示为有向无环图,并用协方差矩阵代替欧氏距离来构造相邻相似矩阵。PAN模块采用四种不同大小的卷积核提取不同语义强度的特征。在[215]中,提出了一种图注意卷积(GAC)方法,从局部邻域集中有选择地学习相关特征。该操作通过根据不同的相邻点和特征通道的空间位置和特征差异动态地分配注意权重来实现。GAC可以学习捕获有区别的特征进行分割,并且具有与常用CRF模型相似的特征。Ma等人[223]提出了一个点全局上下文推理(PointGCR)模块,以使用无向图表示来捕获沿通道维度的全局上下文信息。PointGCR是一个即插即用和端到端的可培训模块。它可以很容易地集成到现有的分割网络中,以实现性能提升。

此外,最近的一些工作试图在弱监督下实现点云的语义分割。Wei等人[224]提出了一种两阶段的方法来训练具有亚云级别标签的分割网络。Xu等人[225]研究了用于点云语义分割的几种不精确监督方案。他们还提出了一种只需部分标记点(例如10%)即可训练的网络。

表5:S3DIS(包括Area5和6倍交叉验证)[10]、Semantic3D(包括semantic-8和reduced-8子集)[12]、ScanNet[11]和SemanticKITTI[15]数据集的比较语义分割结果。

总体精度(OA)、联合平均交集(mIoU)是主要的评价指标。为简单起见,我们省略了值后面的“%”。符号“-”表示结果不可用。

5.2       实例分割

与语义分割相比,实例切分更具挑战性,因为它需要更精确和细粒度的点推理。特别是,它不仅需要区分具有不同语义的点,而且需要分离具有相同语义的实例。总的来说,现有的方法可以分为两类:基于建议Proposal的方法和无建议Proposal的方法。几个里程碑方法如图13所示。

图13:最相关的基于深度学习的3D实例分割方法的时间顺序概述。

5.2.1        基于Proposal的方法

这些方法将实例分割问题转化为两个子任务:三维目标检测和实例掩码预测。

Hou等人[226]提出了一种三维全卷积语义实例分割(3D-SIS)网络,实现了RGB-D扫描的语义实例分割。这个网络学习颜色和几何特征。与3D目标检测类似,3D区域建议网络(3DRPN)和3D感兴趣区域(3D RoI)层用于预测边界框位置、对象类标签和实例掩码。在综合策略分析之后,Yi等人[227]提出了一种生成形状建议网络(GSPN)来生成高对象性的3D建议。

这些建议由基于区域的PointNet(R-PointNet)进一步完善。通过预测每个类标签的每点二进制掩码来获得最终标签。与点云直接回归三维边界不同,该方法通过加强几何理解去除了大量无意义的建议。

Narita等[228]通过将二维全景分割扩展到三维映射,提出了一种在线体积3D映射系统,共同实现大规模三维重建、语义标注和实例分割。他们首先利用2D语义和实例分割网络来获得按像素分类的全景标签,然后将这些标签整合到体积图中。一个完全连接的CRF被进一步用来实现精确的分割。该语义映射系统可以实现高质量的语义映射和判别对象识别。Yang等人[229]提出了一种称为3D BoNet的单阶段、无锚点和端到端可训练网络来实现点云上的实例分割。该方法直接对所有可能的实例进行粗略的三维边界框回归,然后利用点级二值分类器得到实例标签。特别地,边界框生成任务被描述为一个最优分配问题。此外,还提出了多准则损失函数来正则化生成的边界框。该方法不需要任何后处理,计算效率高。Zhang等人[230]提出了一个网络,例如大规模户外激光雷达点云的分割。该方法利用自注意块学习点云鸟瞰图上的特征表示。根据预测的水平中心和高度限制获得最终实例标签。Shi等人[231]提出了一种层次感知的变分降噪递归自动编码器(VDRAE)来预测室内三维空间的布局。对象建议通过递归上下文聚合和传播迭代生成和细化。

总体而言,基于提议的方法[226]、[227]、[229]、[232]直观明了,实例分割结果往往具有良好的客观性。然而,这些方法需要多阶段的训练并修剪冗余建议。因此,它们通常耗时且计算代价高。

5.2.2        无Proposal的方法

无proposal方法[233]、[234]、[235]、[236]、[237]、[238]、[239]、[240]没有目标检测模块。相反,他们通常认为实例分割是语义分割之后的后续聚类步骤。特别是,大多数现有的方法都是基于这样的假设,即属于同一实例的点应该具有非常相似的特征。因此,这些方法主要集中在判别特征学习和点分组上。

在一项开创性的工作中,Wang等人[233]首先引入了一种相似组建议网络(SGPN)。该方法首先学习每个点的特征和语义图,然后引入相似度矩阵来表示每个成对特征之间的相似度。为了获得更多的判别特征,他们采用双铰链损失来相互调整相似度矩阵和语义分割结果。最后,采用启发式非极大值抑制方法将相似点合并到实例中。由于相似矩阵的构造需要大量的内存消耗,这种方法的可扩展性受到限制。类似地,Liu等人[237]首先利用子流形稀疏卷积[166]来预测每个体素的语义得分和相邻体素之间的亲和力。然后,他们引入了一种聚类算法,根据预测的亲和力和网格拓扑将点分组到实例中。Mo等人[241]在PartNet中引入了分割检测网络来实现实例的分割。使用PointNet++作为主干,预测每个点的语义标签和不相交的实例掩码。此外,Liang等人[238]提出了一种结构意识的损失,用于判别嵌入的学习。这种损失同时考虑了特征的相似性和点之间的几何关系。基于注意力的图CNN进一步用于通过聚集来自邻居的不同信息自适应地细化学习的特征。

由于一个点的语义类别和实例标签通常是相互依赖的,人们提出了几种方法将这两个任务耦合到一个任务中。Wang等人[234]通过引入端到端和可学习的关联分段实例和语义(ASIS)模块,整合了这两个任务。实验表明,通过该模块,语义特征和实例特征可以相互支持,提高了系统的性能。类似地,Zhao等人[242]提出了JSNet来实现语义和实例分割。此外,Pham等人[235]首先引入了多任务逐点网络(MT-PNet)来为每个点分配一个标签,并通过引入区分损失来正则化特征空间中的嵌入[243]。然后,他们融合预测的语义标签和嵌入到一个多值条件随机场(MV-CRF)模型进行联合优化。最后,利用均值场变分推理产生语义标签和实例标签。Hu等人[244]首先提出了一种动态区域增长(DRG)方法,将点云动态分离为一组不相交的补丁,然后使用无监督Kmeans++算法对这些补丁进行分组。然后在补丁分组上下文信息的指导下进行多尺度补丁块分割。最后,将这些标记的补丁合并到对象层,得到最终的语义和实例标签。

为了在全三维场景中实现实例分割,Elich等人[236]提出了一种混合2D-3D网络,从BEV表示和点云的局部几何特征中联合学习全局一致的实例特征。然后将学习到的特征结合起来,实现语义和实例分割。请注意,使用更灵活的Meanshift[245]算法将这些点分组为实例,而不是使用启发式的GroupMerging算法[233]。另外,多任务学习也被引入到实例分割中。Lahoud等人[246]学习了每个实例的独特特征嵌入和方向信息来估计对象的中心。提出了特征嵌入损失和方向性损失两种方法来调整潜在特征空间中的学习特征嵌入。采用Mean-shift聚类和非最大值抑制方法对体素进行分类。这种方法在ScanNet[11]基准上达到了最先进的性能。此外,预测的方向信息对于确定实例的边界特别有用。Zhang等人[247]将概率嵌入引入到点云的实例分割中。该方法还结合了不确定性估计,提出了一种新的聚类损失函数。Jiang等人[240]提出了一种点组网络PointGroup,它由语义分割分支和偏移预测分支组成。进一步利用双集聚类算法和ScoreNet实现更好的分组结果。

总之,无建议方法不需要计算昂贵的区域建议组件。然而,由于这些方法没有显式地检测对象边界,因此通过这些方法分组的实例段的客观性通常较低。

5.3       零件分割

三维形状的零件分割有两方面的困难。首先,具有相同语义标签的形状零件具有较大的几何变化和模糊性。第二,具有相同语义的对象中的零件数量可能不同。

VoxSegNet[248]提出在有限的解决方案下实现三维体素化数据的细粒度零件分割。提出了一种空间密集提取(SDE)模块(由堆叠的残差残差块组成),用于从稀疏体数据中提取多尺度判别特征。通过逐步应用注意力特征聚合(AFA)模块,学习的特征被进一步重新加权和融合。Kalogerakis等人[249]将FCN和基于表面的CRF相结合,以实现端到端的3D零件分割。他们首先从多个视图生成图像以获得最佳的表面覆盖率,然后将这些图像输入2D网络以生成置信度图。然后,这些置信度图由一个基于表面的CRF进行聚合,CRF负责对整个场景进行一致的标记。Yi等人[250]介绍了一种同步光谱CNN(SyncSpecCNN)来对不规则和非同构的形状图进行卷积。提出了一种扩展卷积核的谱参数化和谱变换网络,解决了多尺度局零件析和形状信息共享的问题。

Wang等人[251]首先引入形状完全卷积网络(SFCN)并以三个底层几何特征作为输入,对三维网格进行形状分割。然后,他们利用基于投票的多标签图切割进一步细化分割结果。Zhu等人[252]提出了一种用于三维形状协同分割的弱监督CoSegNet。该网络将未分段的三维点云形状集合作为输入,并通过迭代最小化组一致性损失来生成形状零件标签。与CRF相似,提出了一种预训练的零件优化网络来进一步优化和去噪零件方案。Chen等人[253]提出了一种分支自动编码网络(BAE-NET),用于无监督、一次性oneshot和弱监督的三维形状联合分割。该方法将形状共分割问题描述为一个表征学习问题,通过最小化形状重构损失来寻找最简单的零件表示。基于编码器-解码器结构,该网络的每个分支可以学习特定零件形状的紧凑表示。从每个分支学习的特征和点坐标然后被提供给解码器以产生一个二进制值(它指示该点是否属于这一零件)。该方法具有良好的泛化能力,可以处理大的三维形状集合(多达5000多个形状)。然而,该方法对初始参数敏感,并且没有将形状语义融入到网络中,这阻碍了该方法在每次迭代中获得鲁棒稳定的估计。Yu等人[254]提出了一种自顶向下的递归零件分解网络(PartNet),用于分层形状分割。与现有的将形状分割为固定标签集的方法不同,该网络将零件分割问题描述为级联二值化标注问题,并根据零件的几何结构将输入点云分解为任意数量的零件。Luo等人[255]提出了一种基于学习的分组框架,用于三维零件分割。为了提高跨类别的泛化能力,该方法倾向于学习一种分组策略,该策略限制网络在零件局部上下文中学习零件级特征。

5.4       小结

表5显示了现有方法在公共基准上取得的结果,包括S3DIS[10]、Semantic3D[12]、ScanNet[39]和SemanticKITTI[15]。需要进一步调查以下问题:

6         结论

本文综述了3D理解的最新方法,包括3D形状分类、3D目标检测与跟踪、3D场景与目标分割等。对这些方法进行了全面的分类和性能比较。文中还介绍了各种方法的优缺点,并列举了潜在的研究方向。

参考文献