地面分割（三）

点云登山者

于 2025-01-06 16:54:21 发布

阅读量253

点赞数

CC 4.0 BY-SA版权

分类专栏：地面分割文章标签：人工智能计算机视觉自动驾驶

本文链接：https://blog.csdn.net/qq625924821/article/details/144966646

地面分割专栏收录该内容

5 篇文章

订阅专栏

文章目录

一摘要

二资源

三内容

一摘要

3D 点云上的地面分割是许多应用的基础，例如 SLAM 和对象分割。由于它通常是这些应用程序的预处理模块，因此高效率和准确性是保证整个系统性能的基本要求。为此，作者避免了 3D 点云上的地面拟合和区域划分。提出了一种基于像素图像的方法，该方法将 3D 点云投影到两个圆柱形图像上，即水平范围图像和 z 图像，然后根据它们进行分割。为了实现快速准确的地面分割，首先引入了基于图像特征的创新设计。具体来说，考虑了 LiDAR 模型改进了坡度特征，并建议将特征与不同大小的感受野相结合，以更好地识别地面。然后，根据这些特征，设计了一个用于像素分类的预分割模式。对于精细分割，设计了一个分层细化框架，集成了非线性滤波器和基于 majorityvote 核的卷积，证明在预分割的基础上，精度提高了 7% 以上。在真实世界平台、 SemanticKITTI 和 nuScenes 数据集上进行了全面的实验。结果表明，该方法可以在 64 光束 LiDAR 上实现 94.41% 的精度和 127 Hz 的速度，优于最先进的方法并保证了有竞争力的鲁棒性。

二资源

文章：DipG-Seg: Fast and Accurate Double Image-Based Pixel-Wise Ground Segmentation

代码：https://github.com/EEPT-LAB/DipG-Seg.

年份：2022

三内容

1）摘要

3D 点云上的地面分割是许多应用的基础，例如 SLAM 和对象分割。由于它通常是这些应用程序的预处理模块，因此高效率和准确性是保证整个系统性能的基本要求。为此，作者避免了 3D 点云上的地面拟合和区域划分。提出了一种名为 DipG-Seg 的基于像素图像的方法，该方法将 3D 点云投影到两个圆柱形图像上，即水平范围图像和 z 图像，然后根据它们进行分割。为了实现快速准确的地面分割，首先引入了基于图像特征的创新设计。具体来说，考虑了 LiDAR 模型改进了坡度特征，并建议将特征与不同大小的感受野相结合，以更好地识别地面。然后，根据这些特征，设计了一个用于像素分类的预分割模式。对于精细分割，设计了一个分层细化框架，集成了非线性滤波器和基于 majorityvote 核的卷积，证明在预分割的基础上，精度提高了 7% 以上。在真实世界平台、 SemanticKITTI 和 nuScenes 数据集上进行了全面的实验。结果表明，该方法可以在 64 光束 LiDAR 上实现 94.41% 的精度和 127 Hz 的速度，优于最先进的方法并保证了有竞争力的鲁棒性。

2）创新点

①首先，引入一种两级修复方法来提高投影图像质量。然后，提出了一种改进的斜率特征和一种名为水平斜率变化（HSV）的新特征。通过设计预分割模式，将它们与 z 图像的标准差（STDZ）相结合，实现高效的像素级地面分类。

②提出了一个分层框架，用于在预分割之后进行精细分割。它巧妙地结合了非线性滤波器和基于多数票核（MVK）的卷积，大大提高了准确性。

③最后，在 SemanticKITTI nuScenes数据集上进行的实验表明，文章方法表现极好的性能，并且在效率和准确性方面优于 SOTA 方法，该方法也在配备 16 光束 LiDAR 的 UGV 平台上得到了验证。此外，如果直接提供图像，该方法可以达到 489 Hz 至 845 Hz 的超快 FR。

3）算法结构

DipG-Seg 的技术路线如上图所示。首先，将 3D 点云投影到两个图像上，即水平范围图像（下文中的 d 图像）和 z 图像。然后，将包括斜率、HSV 和 STDZ 在内的三个特征图像传递给预分割模块，以使用作者设计的预分割模式生成高置信度（HC）可能性图像。接下来，将 HC 可能性图像输入到精细分割模块中。在本模块中，结合非线性滤波器和基于 MVK 的卷积，提出了一个细化框架，可以显著提高分割精度。最后，通过采用基于广度优先搜索（BFS）的地面标记器，连接的地面像素被分割出来，然后其重新投影到点云上。

A 图像生成

（1）投影

如上图所示，d_sensor为激光点到雷达的三维距离，（x_i, y_i, z_i)为激光点在激光坐标系下的三维坐标。R_i为坡度集合中索引i对应的坡度（如64线，则每根扫描线对应一个坡度，则坡度集合对应64个元素），上述式子主要用于查找该点的最近扫描线，C_i为水平方位角集合中索引i对应的方位角（如每根扫描线上有870个激光点，则每个点对应一个方位角），，上述式子主要用于查找该点的最近扫描点。D(r,c)为距离图像像素（r,c）的水平距离，Z（r,c）为高程图像像素（r,c）的离地高度（以车辆所在地面为0）。每个像素仅保留第一个点的值作为像素值。

（2）图像修补

针对图像中的空像素，采用两级处理方法进行处理：

一级修复：

主要有上图所示的三种情况，Top、Middle和Bottom。Top和Bottle直接使用其相同列相邻行的非空像素替换，Middle采用相同列上下相邻行非空元素的均值替换。

二级修复：

针对空值（r, c），设定缓冲区step，分别遍历r+step和r-step区间中的非空像素，将上侧结果和下侧结果两两组合，若该组合两元素差值小于所设定阈值，则保存该组合，最终，计算最终满足条件组合中所有元素的均值作为当前空值的修复结果。

B 粗分割

为了产生用于粗粉个的HC置信图，需要计算其Slope, HSV, STDZ

（1）边缘图

首先，将要分类的像素分为边缘像素和非边缘像素，其中边缘像素意味着它的值相对于高程图中水平相邻的像素变化很大，而非边缘像素的值变化很小。基于此，如上图的第二行所示，生成了 raw edge 图像M_edge。然后，可以通过将M_edge与给定阈值进行比较来获得二进制边缘图像。参照语义图像，可以观察到位于对象边界上的大多数边缘像素都在二进制边缘图像中被标记出来。相比之下，非边缘像素可能是地面或具有平坦表面的建筑物。

（2）Slope

坡度是用于识别点云的地面的常见特征，并且易于应用于基于图像的表示。斜率图像可以用上列式子获得，其中 Δz 和 Δρ 是连续行之间的差值。但是，尽管修复了图像，但这种直接方法可能会导致坡度图像出现一些异常值。因此，必须采用一个滤波器，但这会导致额外的计算。此外，选择合适的过滤器也是一项艰巨的工作。相比之下，如下图所示，我们的方法采用补偿向量来修改计算 Δz 和 Δρ 中像素的行号，从而减轻异常值。改进的方法如下列式子所示，其中 Ccpt 是补偿向量。根据下图（a）所示的激光模型示意图，Δρ 在两个连续的激光束之间是不均匀的。例如，lk 和 lk+1 之间的 Δρ 与 lk+1 和 lk+2 之间的 Δρ 不同。因此，当行索引较小时，斜率可能会急剧波动。

为此，如算法 1 所示，这里采用启发式方法来生成 Ccpt，假设安装了 3D LiDAR 的移动平台在水平和平坦的地面上行驶。请注意，此假设仅用于派生补偿向量，不会影响分割。我们将补偿向量初始化为空（第 1 行），然后计算每行的补偿值（第 2 行）。通过遵循三角规则，可以获得两个激光脉冲之间的水平距离（第 7 行）。一旦达到阈值 Δdthr（第 5 行），补偿值 i 就会附加到补偿向量（第 8 行）。可以看出，关键思想是扩展 Δρ 以确保对应于斜率计算的两个像素足够远，以减少斜率突然变化的可能性。最后，后跟一个框过滤器，可以很好地平滑斜率图像。如上图（b）和（c）所示，标记的 ROI 证明了这种方法的噪声抑制效果。

（3）水平坡度差异——HSV

如下图（a）中所示，三个连续的水平扫描角度对应三个坡度角 α1、α2 和 α3，其中 α1 和 α2 等于平面 S 的坡度角，而 α2 和 α3 不相同，意味着平面不连续。因此，此特征表现出描述平面平坦度的突出能力。在坡度图像的基础上，通过计算坡度图像同一行中两个连续像素之间的坡度差，可以很容易地获得 HSV 图像。因此，HSV 值与四个像素相关，成为感受野为 2×2 的联合特征。最终的 HSV 图像 MHSV 显示在下图（b）的上半部分，其中绿色多边形 ROI 表示不平坦的草地区域。尽管如此，HSV 图像可以尽可能消除它们的不均匀性。

（4）高程图的标准差——STDZ

图像的标准差在图像分割中特别有用。因此，将其应用于高程图中，以找到地平面和对象的边界。作者采用 3×3 的滑动窗口来计算 STDZ 图像 MSTDZ，因为它是最小的平方窗口，可以保证捕获边界的计算速度和灵敏度。STDZ 的感受野为 3×3，也是一个关节特征。如下图（a）所示，三束连续的激光束照射在物体上，比它们都撞到地面时的STD大（见图（b）），在滑动窗口内产生一个大的 STDZ。因此，可以得出结论，STDZ 特征不仅对捕获竖立在地面上的物体敏感，而且对地面与这些物体之间的边界也很敏感。这在图（c）中说明，其中不同高度的物体之间的边界变得可区分。有人可能会争辩说，当倾斜地面出现时，STDZ 的泛化性能会变差。诚然，STDZ 无法分割倾斜的地面。尽管如此，当移动平台在大致水平的地面上运行时，STDZ 显示出很高的分割精度。此外，水平接地是现实世界中的一种常见情况。因此，STDZ 在分割水平地面方面起着重要作用。

（5）粗分割

在分割之前，框过滤器将应用于 MHSV 以进行平滑。然后，根据上述特征制定分类，如下所示：

其中 E、S、HSV 和 STD 下标 up 和 low 分别表示像素分类的下限和上限。通过结合以上四个公式，一个像素的最终分类可以表示为：

其中 [·] 是 Iverson 括号，如果评估的像素极有可能是地面像素，则 g（r，c）为 true，而对于可能的非地面像素为 false。这种预分割模式的动机是使用从非边缘像素中查找地面像素的下限阈值，并使用上限阈值从边缘像素中重新确认非地面像素。然后，形成可能性图像(HC)，并将在精细分割中得到提炼。

C 精细分割

尽管获得了 HC 可能性图像，但 HC 接地和非接地像素不能直接视为真阳性（TP）像素和真阴性（TN）像素。事实上，根据上述特征，某些像素是无法区分的。此外，不可能完全消除上述处理步骤留下的噪点像素。因此，HC 可能性图像中存在许多假阳性（FP）地面像素块。

首先,假阳性（FP）地面像素，首先采用闭运算进行处理，为后续的地面像素聚类进行去噪；

然后，为了恢复尽可能多的假负（FN）地面像素，采用MVK（多数投票核）卷积进行操作，采用一个3x3的滑动窗口，当邻域内地面像素个数大于6时，则认为中心像素为地面像素；否则为非地面像素；

最后，再针对地面图像进行开运算操作，去除一些假负（FN）地面像素。

D 标签划分

然后，采用连通性聚类算法获取所有所有地面点。

4）实验

A Dataset

公开数据集：SemanticKITTTI和nuScene

实际采集数据：在配备 Intel NUC（i5-1135G7 和 16GB RAM）和 16 光束 LiDAR（每次扫描 32000 点）的移动平台上进行了实验，实验环境在校园内。与仅证明密集 3D 点云有效的方法不同，这些实验将证实该方法能够处理来自 16 光束 LiDAR 的更稀疏的点云。

B 参数设置

如上表所示，在这些参数中，斜率阈值可以根据常识启发式设置，因为斜率是一个具有物理意义的概念。因此，Sup 和 Slow 分别设置为对应于倾斜角度 30° 和 15° 的坡度值。此外，只讨论 Δdthr、Ethr、HSV 和 STD 的影响。在实验期间，其他参数将保持如上表所示。下图显示了 Δdthr、Ethr、HSVup、HSVlow、STDup 和 STDlow 的影响。实验是在 SemanticKITTI 数据集上进行的：

Δdthr 确定补偿向量的生成并影响斜率图像。较大的 Δdthr 意味着更强大的补偿效果，因此斜率图像中的更多异常值将被抑制，从而导致召回率增加，但精度下降。在精度和召回率变化过程中，当 Δdthr 等于 0.3 时，准确率达到最佳。

Ethr 影响 presegmenting 模块中的边界点数量。较大的 Ethr 意味着边缘图像中记录的边界点更少，置信度更高，精度变差，召回率更高，从而影响准确性和 mIoU。因此，结果表明 0.05 是一个合适的阈值。

将HSV和STD这两个特征结合起来，以评估地面的平整度。因此，它们的影响趋势几乎是同步的。当它们的上限和下限阈值增加时，准确率会下降，而召回率会上升。但是 HSVup 和 HSVlow 对精度的总体影响是温和的，因为 HSV 是从坡度图像中得出的，并且它们的分割效果在一定程度上重叠。

值得注意的是，与 HSVup、HSVlow、STDup 相比，精度对 STDlow 更敏感。一个合理的解释是，增加 STDlow 很容易使一些低高度的非地面像素通过预分割，从而导致精度降低。最后，选择了 0.03 作为其阈值。

C 结果展示

选择四个典型场景进行测试，如上图所示，包括驾驶场景中常见的交叉口、长路、死胡同和地下通道。在注记过程中，位于道路、人行道和停车场上的点将被标记为地面点。请注意，汽车底盘下方的一些接地点不计入计算范围，因为它们位于完全无法驾驶的区域。因此，从这些结果中可以看出，该方法可以产生非常高的精度和有竞争力的召回率，证明了它在现实世界中处理稀疏点云的有效性。最重要的是，高精度意味着部署该地面分段方法的移动平台具有很高的驾驶安全性。此外，所有这些结果都可以在大约 3 毫秒内获得，使该方法能够应用于实时自主移动系统。

D 对比分析

5）结论

该文提出了一种快速、准确的基于图像的地面分割方法，称为 DipG-Seg。该方法采用与主流方法不同的图像范式来表示点云，因此避免了地面拟合。然后，引入了改进的坡度特征和平坦度特征（HSV 和 STDZ），并提出了一种预分割模式来组合这些特征，这被证明对我们基于图像的方法有效。随后，我们提出了一个分层细化框架，充分利用了图像处理技术并大大提高了准确性。最后，在 SemanticKITTI 和 nuScenes 数据集以及我们的真实平台上进行了全面的实验，提供了多样化的场景和多个 LiDAR 模型来验证我们的方法。在 SemanticKITTI 上的结果表明，与非学习 SOTA 方法相比，我们的方法实现了 94.41% 的最高准确率和 127 Hz 的最快运行速度。此外，性能指标的高均值和低标准差也证明了我们的方法在各种条件下的稳健性。老实说，比较结果也显示了潜在的召回率改进空间。有两个因素导致了这种情况。一个是一些无法区分的边界像素，例如位于道路和人行道之间低路边的边界像素，无法使用当前的处理策略过滤掉。另一个是精细分割中的非线性滤波器可能会产生一些小的孤立的地面像素块，这些像素块会被地面标注器忽略。因此，为了解决这些问题，未来的工作将集中在精细分割的框架优化上，进一步提高准确性。

还有一点，该方法，对于非城市区域适用性不佳，主要是其坡度仅仅改善了扫描线密集导致的坡度一场问题，对于如地形起伏、灰尘干扰情况并未考虑。该方法在非城市区域，不如patchwork。