研究背景
- 地下车库具有复杂的几何结构、低光照和高反射表面(如车辆玻璃),使得传统的三维重建技术(如SfM和MVS)在特征匹配和几何恢复上表现不佳。
- 新兴的三维高斯分布方法(3DGS)尽管提高了渲染质量,但在处理大规模场景时仍然面临挑战。
车库场景特点:
- 单调的颜色、重复的图案、反光表面和透明的车辆玻璃使得传统的计算机视觉方法(如 运动恢复结构 (SfM))难以有效处理车库场景中的相机姿态估计和 3D 重建。
- 这些问题的根源在于图像中缺乏明显的特征点,导致对应关系的不稳定和稀疏的 3D 重建。
概要
LetsGo 是一种新颖的用于大规模车库建模和渲染的框架,采用了激光雷达辅助的 3D 高斯溅射(3D Gaussian Splatting)技术。该方法的核心创新在于开发了一款配备IMU、LiDAR 和鱼眼相机的手持扫描仪 Polar,用于精确捕捉车库场景中的 LiDAR 点云和 RGB 图像。通过这一设备,作者创建了 GarageWorld 数据集,包含多个具有不同几何结构的车库场景,并将该数据集公开供研究使用。
文章提出了 3D 高斯溅射算法,结合 LiDAR 数据显著提升了车库场景建模和渲染的质量,特别是在处理具有复杂几何和反光表面的车库环境时。此外,文章还介绍了 深度正则化 方法,有效消除了渲染图像中的浮动伪影,并开发了基于 LOD(细节层次)优化的轻量级高斯渲染器,使得大规模场景能够在资源受限的设备(如 Web 浏览器)上实现实时渲染。实验结果表明,该方法在渲染质量和资源效率上优于现有技术,并在多个数据集上取得了显著的表现。
Motivation
大规模车库是日常生活中常见且复杂的场景,尤其在自动驾驶、建筑设计、虚拟现实等领域具有重要应用。然而,这些场景的建模与渲染存在诸多挑战,主要包括:
- 单调颜色与重复图案:车库环境中通常缺乏明显的视觉特征,导致传统的计算机视觉方法(如 运动恢复结构 (SfM))难以进行有效的相机姿态估计和 3D 重建。
- 反光表面与透明物体:车库中的透明车辆玻璃和反光表面(如地面、墙壁)增加了几何重建的难度,传统的 3D 重建方法(如网格化、结构光扫描)容易受到这些表面干扰,导致不准确或稀疏的模型。
- 光照变化与几何复杂性:车库场景常常面临低光照或强烈的光照变化,传统的基于图像的重建方法难以应对复杂的几何形状和动态光照条件。
为了解决这些问题,文章提出了 LetsGo 框架,通过以下创新来提升车库建模和渲染的效果:
- LiDAR 与高斯溅射技术结合:利用 LiDAR 点云的几何精度和 3D 高斯溅射技术的表达能力,更好地处理复杂表面、反射面和透明物体。
- 深度正则化:结合深度先验,通过几何约束减少渲染图像中的伪影,增强渲染质量。
- LOD 渲染与轻量级 Web 渲染器:利用细节层次(LOD)技术,使得大规模车库场景能够高效渲染,支持在低资源设备(如 Web 浏览器)上的实时显示。
通过这些创新,LetsGo 提供了一个高效且高质量的车库建模和渲染解决方案,解决了传统方法在此类复杂场景中的局限性,并具有广泛的应用潜力,特别是在 自动驾驶、虚拟现实、电影特效 等领域。
系统概述
LetsGo 采用了一种新的 激光雷达辅助 3D 高斯溅射 (3DGS) 方法,专门应对车库这种复杂环境。
数据采集 (Polar) --> 初始建模 (SLAM + Poisson) --> 高斯初始化 (点云转化) --> 模型优化 (深度正则化 + LOD)
| |
+----------------------------------> 渲染与应用 (WebGL 渲染器)
技术细节
1. Polar 设备设计与数据采集
Polar 是一款 手持式扫描设备,专为大规模车库场景的数据采集设计,集成了 IMU(惯性测量单元)、LiDAR 和 鱼眼相机。它的设计旨在克服传统相机和传感器在低光照、重复图案和反光表面等环境下的局限性。
设备组成:
- IMU:提供精确的设备运动估计,用于 相对姿态估计。
- LiDAR:捕捉场景的 高精度 3D 点云,精度为 1-1.5 cm,最大探测距离 50m,适合车库环境的几何重建。
- 鱼眼相机:提供 宽视场 RGB 图像(6K分辨率,180°视场),帮助获取大范围的视觉信息。
扫描策略:
- 多方向扫描:前后、左右、多角度扫描,确保覆盖车库中的各个角落。
- 适应性光照调节:在不同光照条件下(如低光照和反射面),通过自动曝光和自动ISO控制来确保图像质量。
- 数据合成:每个扫描路径以不同的方向进行四次采集(前后左右),以确保车库场景的全局性和一致性。
2. GarageWorld 数据集
GarageWorld 是一个包含五个不同几何结构的车库场景的数据集,使用 Polar 设备收集。数据集包括多种车库布局(如 平坦路径、螺旋通道、多层室内车库)和不同的 光照条件。它将为后续研究提供标准化的车库场景数据。
Fig. 4. Visualization of examples from our GarageWorld dataset.
3. 3D 高斯溅射 (3DGS) 技术
3D 高斯溅射 是一种 显式表示,通过高斯分布来表示场景中的点、几何形状和纹理。每个高斯点由 位置、协方差矩阵(表示点的形状和方向)、颜色 和 不透明度 等参数定义。
关键特点:
- 高斯点表示:高斯溅射能够很好地表示车库场景中的 反光表面 和 透明物体,如玻璃反射。
- 高斯溅射投影:通过将 3D 高斯点投影到 2D 图像平面,生成视角依赖的颜色和透明度效果。
- 深度正则化:结合 LiDAR 点云中的深度信息,深度正则化有助于减少 浮动伪影,确保渲染效果的几何一致性。
4. 深度正则化
为了提升渲染效果,特别是消除 浮动伪影,本文提出了 深度正则化 方法:
工作原理:
- 深度计算:通过计算每个高斯点的预期深度 DGD_GDG,并将其与 LiDAR 提供的深度先验对比,减少不符合几何真实的高斯点。
- 深度损失:利用深度损失函数,将高斯点的渲染深度与 LiDAR 深度信息进行匹配,强化高斯分布的几何约束。
5. LOD(细节层次)技术
由于车库场景可能非常庞大,直接加载整个场景的高分辨率高斯点会消耗大量资源。因此,提出了 LOD(细节层次)渲染技术,用于在渲染过程中根据视角动态选择不同分辨率的高斯点。
6. 混合表示(Hybrid Representation)
为了在 渲染效率 和 质量 之间找到平衡,本文提出了一种 混合表示 方法,将 传统网格表示 和 3D 高斯表示 结合。
混合表示细节:
- 传统网格表示:用于表示简单的几何形状,如车库墙壁和地面。由于车库环境中的这些部分通常较为规则,因此使用网格表示可以更高效地处理。
- 3D 高斯表示:用于捕捉复杂的几何细节和高频纹理,如车辆、反光表面等。高斯溅射能更好地处理反射和透明物体。
这种混合方法既能保持较高的渲染质量,又能优化内存使用和计算资源,确保大规模场景的实时渲染。
7. 实时渲染与优化
为了优化大规模场景的渲染,采用了以下策略:
- 多线程处理:利用 GPU 加速 和 并行计算 提高渲染效率。
- 高斯点压缩与存储优化:采用 分块存储 和 压缩算法,减少内存消耗,并加速数据加载。
- 数据分层:为每个分辨率级别的高斯点分配不同的存储和加载策略,按需加载数据,避免一次性加载大量数据导致性能瓶颈。
实验与结果
- 在 GarageWorld 数据集、ScanNet++ 和 KITTI-360 等多个数据集上的实验表明:
- LetsGo 方法 在 渲染质量 和 资源效率 方面优于其他传统方法,尤其在处理复杂的车库场景时表现出色。
- 与现有的 3D 高斯溅射 方法相比,采用 LiDAR 数据增强的 LetsGo 方法 更能适应车库等环境中的复杂纹理和几何。
总结
LetsGo 提供了一种创新的方法,利用 LiDAR 辅助的 3D 高斯溅射 和 LOD 渲染 技术,解决了车库场景中的建模和渲染挑战。通过 深度正则化 和 混合表示,该方法不仅提升了渲染质量,还在 资源效率 上进行了优化。它在 自动驾驶、虚拟现实 和 电影特效 等领域具有广泛的应用潜力。