点云问题

ZhuYuanxiang 2023-09-07 16:22:03
Categories: Tags:

点云问题

三维数据的表述形式

三维数据的深度学习

点云:是不规则的格式,处理时常常被转换为三维体素网络或者图像集合。这样数据表示的转换使得渲染时需要处理大量不必要的数据,而且还会在量化时引入人工伪影,从而遮掩了数据的自然不变性;同时,点云数据的排列不变性,在网络计算中需要一定的对称性,还需要考虑刚性运行的不变性。

深度学习关注的都是有序数据,而点云是无序的向量集合;[^25]处理了通用的无序集合,未考虑集合中存在的几何形状。

点云数据特征

点特征:对点的某些统计特征进行编码,并且被设计为具有某些变换的不变性。变换分为内在的与外在的,特征分为局部特征和全局特征。对于特定的任务,需要找出最佳的特征组合。

点集的性质:

解决无序问题的三种策略:

点云的特性:

点云数据集

大型数据集

大型数据集的每个房间或者每个场景的点云中都包含几万几十万几百万的点。

S3IDS(Standford Large-Scale 3D Indoor Spaces)

6个大型室内区域组成,每个区域分为若干个房间,共有271个房间,13个语义类别

下载地址

vKITTI(Virtual KITTI)

虚拟激光雷达点云:大型的室外道路点云,13个语义类别

下载地址

大型数据集的预处理

网络输入点数(1024,2048,4096,8192)受限于设备的计算能力,因此大型点云数据集需要进行数据预处理:切和降。切:将每个大型点云切分成一定规模的块(Block);降:即降采样,将每个块的点数进一步的降低或者规范到固定的数量,作为网络的输入。

PointNet系列的预处理

预处理方式特点评价:

  1. 切分方式简单粗暴,结果会有不完整的类别。例如:一张桌子被分到两个块中。
  2. 数据信息损失较大,切分的错误,抛弃的数据点。

PointCNN的数据预处理

切的方法:

  1. 使用PointNet切法,获得一次数据;
  2. 基于PointNet切法,再朝x轴方向一次移动$0.5米$进行切分,获得一次数据。可能会避免PointNet切法中出现的半个物品,实现数据增强。
  3. 基于PointNet切法,再朝y轴方向一次移动$0.5米$进行切分,获得一次数据。可能会避免PointNet切法中出现的半个物品,实现数据增强。

降的方法:

  1. 使用PointNet的随机采样方法,获得一次数据;
  2. 基于PointNet的随机采样方法,再随机采样,获得一次数据,从而实现数据增强

小型数据集

点云中包含的对象或者场景非常小,直观表现就是点数非常少

ShapeNet

规则的CAD模型,16个类别,50个部件,16881个形状。每个类别标注了实例标签、组件结构,每个形状轮廓规则无杂点。

下载地址

ModelNet40

规则的CAD模型,40个类别,没有实例标签。

下载地址

PointNet

image-20211215174036746

PointNet:统一的架构,直接将点云作为输入,输出为整个输入的类标签,或者输入的每个点所对应的点分割标签或者点部件标签。每个点特征可以包括:XYZ、RGB、法线、局部特征、全局特征。

PointNet的关键是使用单对称函数:最大池化。网络学习一组优化准则/函数来选择点云中有趣的或者有信息的点,并且对选择的原因进行编码。网络的最后一层(全连接层)将学习到的最优值进行处理,或者聚集成整个形状的全局描述符(形状分类),或者对每个点进行标签预测(形状分割)。

PointNet的稳健性

模型评价标准

IoU

在特定数据集中检测目标物体准确度的度量标准。计算需要的数据:

$$
\text{IoU}=\frac{重叠区域}{并集区域}
$$

image-20211216113431684

举例如下:绿色框是基准值,红色框是预测值。

image-20211216113503904

参考文献

[^1] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 652–660, 2017.
[^2] C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierarchical feature learning on point sets in a metric space,” Advances in neural information processing systems, pp. 5099–5108, 2017.
[^3] Y. Li, R. Bu, M. Sun, W. Wu, X. Di, and B. Chen, “Pointcnn: Convolution on X-transformed points,” Advances in Neural Information Processing Systems, 2018.
[^4] F. Engelmann, T. Kontogianni, A. Hermans, and B. Leibe, “Exploring spatial context for 3d semantic segmentation of point clouds,” Proceedings of the IEEE International Conference on Computer Vision Workshops, pp. 716–724, 2017.
[^5] I. Armeni, O. Sener, A. R. Zamir, H. Jiang, I. Brilakis, M. Fischer, and S. Savarese, “3d semantic parsing of large-scale indoor spaces,” pp. 1534–1543, 2016.
[^6] A. Gaidon, Q. Wang, Y. Cabon, and E. Vig, “Virtual worlds as proxy for multi-object tracking analysis,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
[^7] L. Yi, V. G. Kim, D. Ceylan, I. Shen, M. Yan, H. Su, C. Lu, Q. Huang, A. Sheffer, and L. J. Guibas, “A scalable active framework for region annotation in 3d shape collections,” Acm Transactions on Graphics, vol. 35, no. 6, p. 210, 2016.