3D点云深度学习

最新推荐文章于 2025-06-21 08:40:58 发布

原创

最新推荐文章于 2025-06-21 08:40:58 发布 · 2.6k 阅读

42 ·

CC 4.0 BY-SA版权

吴建明

本文探讨3D点云在自动驾驶中的深度学习应用，包括数据的非结构化、排列不变性和数量变化等挑战。通过将点云转换为体素或直接处理原始点，以及采用基于点和图的方法，深度学习在点云处理上取得进展。文章介绍了体素化、二维投影、原始点处理和图方法的优缺点，以及在语义理解、目标检测和实例分割任务中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3D点云深度学习

在自动驾驶中关于三维点云的深度学习方法应用、三维场景语义理解的方法以及对应的关键技术介绍。

数据

但是对于3D点云，数据正在迅速增长。大有从2D向3D发展的趋势，比如在opencv中就已经慢慢包含了3D点云的处理的相关模块，在数据方面点云的获取也是有多种渠道，无论是源于CAD模型还是来自LiDAR传感器或RGBD相机的扫描点云，无处不在。另外，大多数系统直接获取3D点云而不是拍摄图像并进行处理。因此，在深度学习大火的年代，应该如何应用这些令人惊叹的深度学习工具，在3D点云上的处理上达到对二维图像那样起到很好的作用呢？

3D点云应用深度学习面临的挑战。首先在神经网络上面临的挑战：

（1）非结构化数据（无网格）：点云是分布在空间中的XYZ点。没有结构化的网格来帮助CNN滤波器。

（2）不变性排列：点云本质上是一长串点（nx3矩阵，其中n是点数）。在几何上，点的顺序不影响它在底层矩阵结构中的表示方式，例如，相同的点云可以由两个完全不同的矩阵表示。如下图所示：

在这里插入图片描述

图1

（3）点云数量上的变化：在图像中，像素的数量是一个给定的常数，取决于相机。然而，点云的数量可能会有很大的变化，这取决于各种传感器。

在点云数据方面的挑战：

（1）缺少数据：扫描的模型通常被遮挡，部分数据丢失。

（2）噪音：所有传感器都是嘈杂的。有几种类型的噪声，包括点云扰动和异常值。这意味着一个点有一定的概率位于它被采样的地方（扰动）附近的某一半径范围内，或者它可能出现在空间的任意位置（异常值）。

（3）旋转：一辆车向左转，同一辆车向右转，会有不同的点云代表同一辆车

Princeton’s Modelnet40 dataset。它包含约40个对象类别（如飞机，表格，植物等），用三角形网格表示的12311个CAD模型。数据分为9843个培训模式和2468个测试模式，如下图

在这里插入图片描述

图2

在点云上应用深度学习的直接方法是将数据转换为体积表示。例如体素网格。这样我们就可以用没有神经网络问题的3D滤波器来训练一个CNN（网格提供了结构，网格的转换解决了排列问题，体素的数量也是不变的）。
但是，这有一些不利因素。体积数据可能变得非常大，非常快。让我们考虑256×256 = 65536像素的典型图像大小，现在让我们添加一个维度256x256x256
= 16777216体素。这是很大的数据量（尽管GPU一直在发展）。这也意味着非常缓慢的处理时间。
因此，通常我们需要妥协并采取较低的分辨率（一些方法使用64x64x64），但是它带来了量化误差的代价。所以，所需的解决方案是一个直接的深度学习的方法，将是3D点云应用深度学习的重点。

作者调查了三种最近发表的文章，主要针对对点云进行深度学习的论文。正如下图所示，展示了3D点云分类准确性出版（准确性，年份和数据类型），它总结了数据集上的最新准确性结果。以及每种方法正在处理的数据的类型。可以看到，在2015年，大多数方法都用于多视图数据（这是一种简短的说法 - 让我们拍摄3D模型的几张照片并使用2D方法处理它们），2016年更多的方法使用了体素表示的点云学习和2017年的基于点的方法有了大幅度的增长。

在这里插入图片描述