北大升级DrivingGaussian++:无需训练,智驾场景自由编辑!

DrivingGaussian++:自动驾驶场景编辑新突破

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享北京大学&谷歌 DeepMind最新的工作!无需训练,自由编辑:DrivingGaussian++颠覆场景仿真!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群加入,也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Yajiao Xiong等

编辑 | 自动驾驶之心

相信做 learning-based 任务的业内人士都有一个共识:数据一直是自动驾驶发展的一个重要基石,数据的多样性和标注的质量很大程度上决定模型的性能和潜力。自动驾驶发展到今天,需要大家用 80% 的精力去解剩下的 20% 的长尾场景,而往往长尾场景的数据采集并不是一件容易的事情,这就诞生了一个细分领域 —— 3D场景编辑。通过3D场景编辑,可以仿真各种真实世界的驾驶条件,从而增强自动驾驶系统的鲁棒性和安全性。

3D场景编辑任务 涵盖多种组成部分,包括风格迁移、运动修改、天气仿真以及目标的添加或移除。然而,这些编辑任务各有各的特点和难点,导致现有的编辑工具往往只能专攻某一项,缺少一个“全能型”的框架。目前常用的办法是先对2D画面进行编辑,效果好是好,但为了确保从各个角度看都一致,就得反复调整,非常耗时耗力。所以,这种方法很难用在大规模的自动驾驶仿真上。

要想对3D场景进行编辑,首先得把它精准地重建出来,这对于自动驾驶的测试至关重要。但重建场景本身就是一个大难题:车上装的传感器数量有限,车还在高速运动,采集到的数据既稀疏又不完整。再加上车周摄像头都是朝外安装,视野重叠区域小,光线条件也不统一,导致把不同角度、不同时间的画面拼成一个完整的3D场景格外困难。这种360度、大范围、动态变化的场景,想要建得准确、逼真,真的非常具有挑战性。

在本文中,作者提出 DrivingGaussian++(CVPR 2024 的工作 DrivingGaussian 的续作),核心思想是 利用来自多个传感器的序列数据对复杂的驾驶场景进行分层建模。作者采用复合 GS(Composite Gaussian Splatting)将场景分解为静态背景和动态目标,并分别重建每个部分。在此基础上,通过 GS 进行全局渲染捕捉真实世界中的遮挡,包括静态背景和动态目标。此外,作者将 LiDAR 先验融入高斯表示中,从而能够恢复更精确的几何结构并保持更好的多视图一致性。

  • 论文题目: DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes

  • 论文链接:https://arxiv.org/pdf/2508.20965

与CVPR 2024上发表的初步结果的差异。 作者在几个方面扩展了之前的工作:

  • 基于复合 GS 表示大规模动态驾驶场景,引入了两个新颖模块,包括增量静态3D高斯(Incremental Static 3D Gaussians)和复合动态高斯图(Composite Dynamic Gaussian Graphs)。前者增量地重建静态背景,而后者使用高斯图对多个动态目标进行建模。

  • 构建了一个场景编辑框架,以无需训练的方式编辑重建的场景,涵盖多个任务,包括纹理修改、天气仿真和目标操纵。它有助于生成新颖且真实的仿真数据。

  • 实现了驾驶场景的动态编辑,预测插入场景中的粒子的运动轨迹。

  • 通过3D生成和重建构建了一个前景资源库,并验证了数据的质量。

相关工作

3D 重建

神经辐射场

神经辐射场 (NeRFs) 利用多层感知机 (MLPs) 和可微分体渲染,可以从一组 2D 图像和相应的相机位姿信息中重建 3D 场景并合成新视图。

用于有界场景的 NeRF。 典型的 NeRF 模型最初仅适用于有界场景,且对相机与物体的相对位置有较高要求,也难以处理重叠少或向外捕捉的场景。尽管后续研究在训练速度、位姿优化、场景编辑和动态表达等方面改进了 NeRF,但其在处理自动驾驶等大规模无界场景时仍面临显著挑战。

用于无界场景的 NeRF。 针对无界场景,一些方法对 NeRF 进行了扩展,例如引入多尺度城市静态场景建模、采用抗混叠的 MIP-NeRF 结构、融合多分辨率地面特征,或通过解耦方式处理街道视图。但这些方法大多仍基于静态假设,难以有效表达动态元素。

此外,尽管已有工作尝试将 NeRF 用于动态单目视频合成,或通过场景图、实例感知仿真器和多传感器融合(如 LiDAR 和光流)处理动态城市环境,这些方法往往受限于前向视角或难以应对多摄像头、光照变化和动态目标的复杂交互。传统基于 NeRF 的方法严重依赖光线采样,在动态多目标和光照变化显著时渲染质量下降,同时 LiDAR 仅作为辅助深度监督,其几何先验能力未得到充分发挥。

为克服这些局限,本研究采用复合 GS 对无界动态场景进行建模:静态背景随自车移动增量重建,动态目标通过高斯图建模并集成到场景中。LiDAR 不仅用于深度监督,更为高斯初始化提供几何先验,从而提升重建精度与场景一致性。

3DGS

近期的 3D  GS 方法使用大量 3D 高斯来表示静态场景,并在新视图合成和训练速度方面取得了最先进的结果。与现有的显式场景表示(例如,网格、体素)相比,3DGS 可以用更少的参数对复杂形状进行建模。与隐式神经渲染不同,3DGS 允许基于泼溅的光栅化进行快速渲染和可微分计算。

动态 3DGS 虽然原始的 3DGS 旨在表示静态场景,但已经开发了几种用于动态目标/场景的方法。给定一组动态单目图像,有些工作引入了一个变形网络来建模高斯的运动。此外还有些通过 HexPlane 连接相邻的高斯,实现实时渲染。然而,这两种方法都是明确为专注于中心物体的单目单摄像头场景设计的。另外一些工作使用一组演化的动态高斯来参数化整个场景。然而,它需要具有密集多视图图像的摄像头阵列作为输入。

在真实世界的自动驾驶场景中,数据采集平台的高速运动导致广泛而复杂的背景变化,并且通常由稀疏视图(例如,2-4 个视图)捕获。此外,具有剧烈空间变化和遮挡的快速移动动态目标使情况进一步复杂化。总的来说,这些因素对现有方法构成了重大挑战。

3D 场景可控编辑

神经辐射场 (NeRF) 和 3D  GS 是两种用于 3D 场景重建的重要方法。NeRF 将场景几何和外观隐式编码在多層感知機 (MLP) 中,而 3D  GS 使用 3D 高斯椭球显式表示场景。尽管已经展示了重建能力,但编辑这些表示仍然是一个重大挑战。当前的方法大致可分为两类:基于扩散模型引导的编辑和基于 3D 粒子系统的编辑。

基于扩散引导的编辑

扩散模型因支持文本驱动的图像编辑而受到关注。一些方法借助预训练的扩散模型,将这一能力引入3D场景编辑。具体做法是:对3D模型渲染出的图像添加噪声,再通过2D扩散模型结合控制条件预测噪声差异,并借助分数蒸馏采样(SDS)损失优化3D模型。尽管这类方法效果显著,但它们难以保持多视角一致性,也无法很好地处理复杂的大规模动态场景。

例如,Instruct-NeRF2NeRF 将3D编辑任务转化为2D图像编辑问题,但由于无法保证不同视角下编辑的一致性,容易出现不稳定、速度慢和明显伪影的问题。ViCA-NeRF 尝试通过选择部分参考图像编辑再融合其余图像以缓解问题,但仍未根本解决一致性问题,编辑结果往往模糊。

近期一些工作,如 DreamEditor 将 NeRF 转换为网格并借助 SDS 和 DreamBooth 进行优化;HiFA 通过调整扩散时间步和降噪权重提升多视角一致性;还有一些方法将 NeRF 编辑技术扩展至 3DGS,并引入深度估计作为几何先验。尽管这些方法在一致性方面取得进展,但仍因依赖固定深度估计而仅限于纹理修改,且通常需依赖静态掩码控制编辑区域,无法有效用于动态3D模型训练。现有方法多数仅在物体中心数据集上验证,尚未适用于复杂驾驶场景。

相比之下,DrivingGaussian++ 采用了一种无需训练的范式,有效解决了现有方法在动态驾驶场景编辑中的挑战,实现了卓越的编辑一致性和视觉质量。

基于 3D 粒子系统的编辑

另一类方法不依赖扩散模型或额外图像,而是直接操纵3D粒子实现编辑。例如,ClimateNeRF 通过仿真粒子生成雨、雪、雾等天气效果,并将其嵌入神经场中以增强真实感。GaussianEditor 和 Infusion 等则基于 3DGS,通过语义属性识别编辑区域,或借助深度补全控制高斯修复,实现精确的3D插入与删除。这类方法通常编辑效率更高,多视角一致性也更好。DrivingGaussian++ 采用 3D 粒子级编辑,并将其进一步扩展到多个任务,包括纹理、目标和天气编辑。通过无需训练的范式,作者的方法为大规模自动驾驶场景实现了显式、可控和高效的编辑。


方法论

作者的目标是在 3D 自动驾驶场景中实现无需训练的编辑。为了处理多个编辑任务,作者提出了一个可控且高效的框架。首先,作者采用复合 GS (Composite Gaussian Splatting) 精确重建动态驾驶场景。接下来,作者识别场景中待修改的特定高斯,或生成新的高斯以仿真特定的物理实体。这些目标高斯随后被集成到原始场景中,并预测目标的未来轨迹。最后,作者使用图像处理技术细化结果以增强真实感。使用此框架,作者为三个关键任务开发了详细的编辑方法:纹理修改、天气仿真和目标操纵。方法如图 3 所述。

复合 GS

3DGS 在静态场景中表现良好,但在涉及大规模静态背景和多个动态目标的混合场景中具有显著局限性。如图 4 所示,作者的目标是使用复合 GS 来表示环视的大规模驾驶场景,用于无界的静态背景和动态目标。

带有环视视图的 LiDAR 先验

原始的 3DGS 尝试通过运动恢复结构 (SfM, structure-from-motion) 来初始化高斯。然而,用于自动驾驶的无界城市场景包含许多多尺度的背景和前景。但是它们仅通过极其稀疏的视图被看见,导致几何结构的错误和不完整恢复。

为了给高斯提供更好的初始化,作者将 LiDAR 先验引入 3D 高斯以获得更好的几何结构,并在环视视图配准中保持多摄像头一致性。在每个时间步  ,给定收集的一组多摄像头图像   和多帧 LiDAR 扫描  。作者利用 LiDAR-图像多模态数据最小化多摄像头配准误差,并获得精确的点位置和几何先验。

作者首先合并多帧 LiDAR 扫描以获得场景的完整点云,记为  。作者遵循 Colmap 并分别从每个图像中提取图像特征  。接下来,作者将 LiDAR 点投影到环视图像上。对于每个 LiDAR 点  ,作者将其坐标转换到相机坐标系,并通过投影将其与相机图像平面的 2D 像素匹配:

其中   是图像的 2D 像素,  和   分别是正交旋转矩阵和平移向量。此外,  代表已知的相机内参。值得注意的是,来自 LiDAR 的点可能会投影到多个图像的多个像素上。因此,作者选择到图像平面欧几里得距离最短的点,并将其保留为投影点,并分配颜色。

与现有的一些 3D 重建方法类似,作者将密集束调整 (DBA, dense bundle adjustment) 扩展到多摄像头设置并获得更新的 LiDAR 点。实验结果表明,使用 LiDAR 先验进行初始化以与环视多摄像头对齐,有助于为高斯模型提供更精确的几何先验。

增量静态 3D 高斯

驾驶场景的静态背景由于其大规模、长持续时间以及由自车移动和多摄像头变换引起的变化,对场景建模和编辑构成了挑战。随着车辆的移动,静态背景经常经历时间偏移和动态变化。由于透视原理,过早地合并远离当前时间步的遥远街道场景会导致尺度混淆,从而产生令人不快的伪影和模糊。为了解决这个问题,作者通过引入增量静态 3D 高斯来改进 3DGS,利用车辆运动引入的透视变化和相邻帧之间的时间关系,如图 5 所示。

作者根据 LiDAR 先验提供的深度范围,将静态场景统一划分为   个区间 (bins)。这些区间按时间顺序排列,记为  ,每个区间包含来自一个或多个时间步的多摄像头图像。相邻的区间有一个小的重叠区域,用于对齐两个区间的静态背景。然后将后一个区间增量地融合到前几个区间的高斯场中。对于第一个区间内的场景,作者使用 LiDAR 先验(同样适用于 SfM 点)初始化高斯模型:

其中   是 LiDAR 先验的位置;  是 LiDAR 点的均值;  是一个各向异性的协方差矩阵;  是转置运算符。作者利用此区间段内的环视视图作为监督来更新高斯模型的参数,包括位置  、协方差矩阵  、用于视图相关颜色的球谐系数   以及不透明度 

对于后续的区间,作者使用前一个区间的高斯作为位置先验,并根据它们的重叠区域对齐相邻的区间。每个区间的 3D 中心可以定义为:

其中   是所有当前可见区域的高斯   的 3D 中心集合,  是   区域内的高斯坐标。作者将后续区间中的场景合并到先前构建的高斯中,并以多个环视帧作为监督。增量静态高斯模型   定义为:

其中   表示某个视图中每个高斯对应的颜色,  是不透明度,  是根据所有区间中的   计算出的场景累积透射率。在此过程中,环视多摄像头图像之间的重叠区域用于共同形成高斯模型的隐式对齐。

请注意,在增量构建静态高斯模型期间,前后摄像头对同一场景的采样可能存在差异。因此,作者在 3D 高斯投影过程中使用加权平均来尽可能准确地重建场景的颜色:

其中   是优化后的像素颜色,  表示可微分泼溅,  是不同视图的权重,  是用于对齐多摄像头视图的视图矩阵。

复合动态高斯图

自动驾驶环境高度复杂,涉及多个动态目标和时间变化。如图 5 所示,由于车辆和自我本体的自我中心运动,目标通常从有限的视图(例如,2-4 个视图)中观察到。此外,快速移动的物体也会导致显著的外观变化,使得使用固定的高斯来表示它们具有挑战性。

为了应对这些挑战,作者引入了复合动态高斯图,使得能够在长期、大规模的驾驶场景中构建多个动态目标。作者首先从静态背景中分解出动态前景目标,使用数据集提供的边界框构建动态高斯图。动态目标通过其目标 ID 和相应的出现时间戳进行识别。此外,采用 Grounded SAM 模型基于边界框范围对动态目标进行精确的像素级提取。

作者使用以下公式构建动态高斯图:

其中每个节点存储一个实例目标   表示相应的动态高斯,  是每个目标的变换矩阵。这里,  是边界框的中心坐标,  是时间步   时边界框的方向。作者为每个动态目标分别计算一个高斯。使用变换矩阵  ,作者将目标目标   的坐标系转换到静态背景所在的世界坐标系:

其中   和   是分别对应于每个目标的旋转和平移矩阵。

在优化动态高斯图中的所有节点之后,作者使用复合高斯图将动态目标和静态背景组合起来。每个节点的高斯分布根据边界框的位置和方向按时间顺序连接到静态高斯场中。在多个动态目标之间存在遮挡的情况下,作者根据到相机中心的距离调整不透明度:更近的目标具有更高的不透明度,遵循光传播的原理:

其中   是时间步   时目标   的高斯的调整后不透明度,  是该目标的高斯中心。  表示目标到世界的变换矩阵,  表示相机视线的中心,  是高斯的初始不透明度。

包含静态背景和多个动态目标的复合高斯场由以下公式表示:

其中   是通过增量静态 3D 高斯获得的,  表示优化后的动态高斯图。

3D 驾驶场景编辑基于静态背景和动态目标的复合高斯(由复合 GS 重建),并在其上执行多个编辑任务而无需额外训练。

通过 GS 进行全局渲染

作者采用可微分 3DGS 渲染器  ,并将全局复合 3D 高斯与协方差矩阵   一起投影到 2D:

其中   是透视投影的雅可比矩阵,  表示世界到相机的变换矩阵。

复合高斯场将全局 3D 高斯投影到多个 2D 平面上,并在每个时间步使用环视视图进行监督。在全局渲染过程中,下一个时间步的高斯最初对当前时间步不可见,随后在相应全局图像的监督下被合并。

作者方法的损失函数由三部分组成。将 tile 结构相似性 (TSSIM, Tile Structural Similarity) 引入 GS ,它测量渲染的 tile 与相应的真实值之间的相似性:

其中作者将屏幕分割成   个 tile ,  是高斯的训练参数,  表示从复合 GS 渲染的 tile ,  表示配对的真实 tile 。

作者还引入了一个鲁棒损失来减少 3D 高斯中的异常值,其定义为:

其中   是控制损失鲁棒性的形状参数,  和   分别表示真实图像和合成图像。

通过使用 LiDAR 监督期望高斯的位置,进一步采用 LiDAR 损失,以获得更好的几何结构和边缘形状:

其中   是 3D 高斯的位置,  是 LiDAR 点先验。

作者通过最小化这三个损失之和来优化复合高斯。提出的编辑方法利用全局渲染的图像来识别编辑目标,并利用从 3DGS 导出的深度信息作为几何先验,从而实现有效且真实的多任务编辑。

动态驾驶场景的可控编辑

作者处理自动驾驶仿真的三个关键编辑任务:纹理修改、天气仿真和目标操纵。为了支持这些不同的编辑任务,作者开发了一个框架,该框架使用 3D 几何先验、用于动态预测的大语言模型 (LLMs) 和先进的编辑技术,依次对重建场景的高斯进行操作,以确保整体的连贯性和真实感。

纹理修改: 此任务涉及将图案应用到 3D 目标的表面。在自动驾驶中,纹理修改超越了美学范畴,允许添加关键的道路特征,例如裂缝、井盖和标志,这对于构建更鲁棒的测试环境至关重要。作者在图 7 中展示了物体检测模型的失败案例,突出了编辑仿真重要性。在编辑之前,感知模型准确识别场景内的目标。然而,在使用 DrivingGaussian++ 编辑之后,3D 场景中的具有挑战性的案例对模型变得不可检测,为评估自动驾驶系统内各种组件的可靠性和鲁棒性提供了更有效的测试环境。

天气仿真: 此任务侧重于将动态气象现象(如降雨、降雪和雾)集成到自动驾驶场景中。天气仿真对于复现恶劣天气下的驾驶条件至关重要,展示了其在增强训练数据集方面的重要性。

目标操纵: 此任务分为在重建场景内删除目标和插入目标。目标插入进一步分为静态和动态类型,动态插入自适应地预测目标的运动轨迹。这些操纵对于构建鲁棒的自动驾驶仿真系统至关重要。

为了实现多任务编辑,作者提出了一个框架,该框架无需额外训练即可对重建场景的高斯依次进行操作。该过程首先使用 3D 几何先验识别要编辑的目标高斯,然后将它们集成到场景中。作者采用大语言模型 (LLMs) 来预测动态目标的轨迹,并应用图像处理技术来细化结果,确保连贯性和真实感。编辑流程如图 6 所示。

初始化

在提出的编辑框架中,作者将那些引入到原始场景中或从原始场景中移除的高斯称为目标高斯 (target Gaussians),而从初始场景重建的高斯称为原始高斯 (original Gaussians)。确定目标高斯的方法取决于具体的编辑任务。对于目标移除,目标高斯对应于标记为要移除的原始高斯的子集,通过细化数据集提供的 3D 边界框来识别。由于 LiDAR 先验在重建过程中已被集成,作者可以准确定位它们的位置,而无需额外的坐标系对齐。对于其他编辑任务,会生成新的高斯作为目标高斯,并设计具有特定形状和分布以满足每个任务的要求。

纹理修改。 作者通过在指定编辑区域的表面上引入新的扁平高斯来增强目标的表面纹理。该过程首先选择一个视角,并使用扩散模型或类似工具编辑原始图像,生成目标图像和相应的掩码来指导 3D 编辑。具体来说,作者随机选择一个能清晰看到目标区域的视角,并渲染待编辑的图像及其相关的深度图。接下来,作者定义目标区域的 2D 掩码,并应用扩散模型或图像处理软件在 2D 空间中修改图像,生成目标图像。

使用目标图像和掩码,作者通过逆投影生成目标高斯并分配合适的属性。如图 8 所示,DrivingGaussian++ 根据渲染的深度图和像素级对应关系,将编辑内容投影到相应位置。

然而,3D  GS 重建的表面与实际物体的表面之间可能会出现差异。这些差异可能导致渲染深度与目标的真实深度不一致,可能使得目标高斯的表面看起来不平整和不真实,从而影响编辑质量。

为了解决这个问题,作者对深度图进行均衡化。具体来说,作者将编辑区域的深度归一化,确保沿水平轴有相对均匀的深度分布,同时保留沿垂直轴的深度分布:

其中   分别表示深度均衡化前后的渲染深度,  表示编辑区域的二值掩码,  是图像坐标。这种方法为目标高斯产生了一个平坦的表面,显著提高了纹理修改的视觉质量和真实感。

天气仿真。 作者通过将具有特定物理属性的高斯合并到当前场景中来仿真天气粒子,并通过在每个时间步调整这些高斯的位置来实现动态效果。天气仿真的第一步是设计与所需物理属性相符的粒子。作者计算原始高斯的数量及其位置范围,并在场景中以特定分布引入具有特定形状和颜色的新高斯。具体来说,作者使用狭窄、半透明的白色高斯来表示雨滴,使用不规则的白色椭球高斯来表示雪花,并使用在场景中遵循随机分布的高斯来表示雾。例如,对于雪仿真,作者通过以下方式定义目标高斯 

其中第   个高斯   满足  , 且   分别表示其 3D 坐标、颜色和尺度属性。

其次,为了实现包括雨滴下落、雪花飘移和雾扩散的动态天气效果,作者根据当前时间步为天气高斯添加特定的轨迹。作者以一个示例描述雪花的轨迹:

其中   表示   中第   个高斯在时间步   的位置,  是一个计算时间序列中连续位置之间相对运动的函数。

作者还实现了 3D 积雪效果,如图 8 所示。具体来说,作者首先基于 Depth-Anything 和 Sobel 滤波器计算训练图像的法线图:

其中   和   分别表示图像   的深度图和法线图,而   和   是水平和垂直方向的梯度幅度。基于法线图,在具有较大垂直   分量的区域添加雪掩码。使用带有积雪效果和处理后深度图的处理图像,从该视角进行逆投影以计算雪粒子高斯的 3D 位置。最后,作者组合不同视角下的位置以实现帧间一致的积雪效果。为了避免在帧间重叠区域因重复计算而产生不一致,作者构建了一个 KD 树,并修剪彼此距离过近的节点:

其中   表示目标雪粒子高斯的位置,  表示从第   帧的视角计算的位置,  指的是构建的 KD 树,  代表 K 近邻 (KNN) 函数,它接受三个参数作为输入:_搜索范围_、_搜索目标的 KDTree_ 和 _top k 近邻的数量_。作者将最终的目标雪粒子高斯插入场景中并实现积雪效果。

目标操纵。 由于操作性质不同,目标插入和删除在实现上有所不同。对于目标移除,目标高斯对应于要删除的目标。首先,作者从数据集标注中提取目标的 3D 边界框矩阵,并裁剪边界框内的高斯。为了解决被遮挡区域因重建不充分而产生的孔洞,作者进一步使用扩散模型对渲染图像进行局部绘制。对于目标插入,作者构建了一个包含使用 3DGS 重建的目标的 3D 前景库,可以直接用于插入。库中的目标是通过对在线收集的 Blender 模型进行 3DGS 重建以及对自动驾驶数据集中的车辆进行稀疏重建而获得的。此外,可以使用 MCLight 调整前景目标的照明以更好地匹配当前场景。

带有轨迹预测的高斯组合

在识别出目标高斯之后,作者将它们与原始场景集成。此过程将两个组件在同一坐标系中对齐,以建立物理上准确的遮挡关系。有意思的是,两组高斯的协方差矩阵在光栅化渲染过程中可能会相互干扰,可能导致模糊的结果。因此,作者对添加的高斯执行额外的前向过程,并存储变换后高斯的协方差矩阵。最后,渲染组合后的场景以进行可视化。

对于目标插入任务,为了确保动态目标具有合理且多样的运动轨迹,作者利用大语言模型的强大场景理解能力来预测插入目标的未来轨迹:

其中   表示插入目标在时间步   的位置,而   是初始位置,  表示由 LLM 生成的在时间步   的相对位置,  是天空方向,  表示期望轨迹的描述。具体来说,作者将初始车辆位置、天空方向和轨迹描述作为提示,并通过 GPT-4o 生成一系列可能的未来轨迹序列。

使用可微分渲染进行全局细化

利用扩散模型和 2D 图像处理的最新进展,作者的方法整合了这些技术以增强目标操纵任务的结果。对于目标移除,作者使用扩散模型对渲染图像的损坏区域进行局部修复。首先,作者基于 3D 标注删除指定区域的目标高斯。然而,由于遮挡和数据采集视角的限制,被删除高斯环视的区域通常包含伪影或重建质量差的孔洞。为了解决这个问题,作者使用 K 近邻算法识别目标区域环视需要修复的一组高斯。然后作者对这些高斯进行二值化渲染以生成相应的修复掩码:

要在Markdown中输出该公式,可使用LaTeX语法:

其中   是一个二值掩码,待修复的高斯设置为 1,  表示移除后剩余的高斯,而   表示被移除的高斯,  表示   的位置,  是决定哪些高斯应被修复的距离阈值。  与   中高斯之间的最近距离由   给出,其计算为  。随后,待修复的图像以及相应的掩码作为输入送入扩散模型。DrivingGaussian++ 执行局部修复以恢复场景的完整性和视觉真实性,实现更真实和无缝的目标移除。

对于目标插入任务,当从自动驾驶数据集中提取数据时,作者执行稀疏重建以生成目标高斯。重建的车辆缺乏阴影信息,这会导致渲染图像中出现悬浮效果。为了在不进行额外训练的情况下增强目标插入的真实感,作者采用了一种受 ARShadowGAN 启发的阴影合成方法。具体来说,作者为插入的目标合成阴影以消除悬浮效果,从而提高场景的视觉一致性和真实感。


实验及结论

重建结果与比较

nuScenes 环视视图的比较

作者将提出的模型与最先进的方法进行比较,包括基于 NeRF 的方法和基于 3DGS 的方案。如表 I 所示,作者的方法优于使用基于哈希的 NeRF 进行新视图合成的 Instant-NGP。虽然 Mip-NeRF 和 Mip-NeRF360 是专门为无界室外场景设计的,但作者的方法在所有指标上都表现良好。

作者在具有挑战性的 nuScenes 驾驶场景上展示了定性评估结果。对于多摄像头环绕视图合成,如图 9 所示,作者的方法能够生成逼真的渲染图像,并确保多摄像头之间的视图一致性。同时,EmerNeRF 和 3DGS 在具有挑战性的区域表现不佳,表现出不理想的视觉伪影,例如重影、动态物体消失、植物纹理细节丢失、车道标记丢失以及远处场景模糊。

作者接下来展示了动态时序场景的重建结果。作者的方法准确地建模了大场景中的动态目标,缓解了这些动态元素的丢失、重影或模糊等问题。所提出的模型随着时间的推移一致地构建动态目标,尽管它们的移动速度相对较高。如图 9 所示,其他方法对于快速移动的动态目标是不够的。

KITTI-360 单目视图的比较

为了进一步验证作者的方法在单目驾驶场景设置中的有效性,作者使用 KITTI-360 数据集进行了实验,并与现有的最先进方法进行比较。如表 III 所示,作者的方法在单目驾驶场景中相对于其他模型表现良好。

编辑结果与比较

作者首先在 nuScenes 数据集上展示了多个任务的编辑结果。与最先进的 2D 和 3D 编辑方法相比,作者的方法实现了卓越的视觉真实感和更好的定量一致性。

为了支持对驾驶场景的灵活编辑,作者还创建了一个包含专用驾驶场景目标的 3D 高斯前景库。这个前景库对于自动驾驶仿真和模型验证至关重要。

定性结果与比较

作者通过 DrivingGaussian++ 对重建的 nuScenes 数据执行无需训练的编辑,涉及三个领域:纹理、天气和目标操纵。综合结果如图 12 所示,展示了 DrivingGaussian++ 在动态驾驶场景中执行各种编辑操作的能力。

对于天气编辑,作者通过基于粒子的仿真实现了真实的效果。特别是对于雪仿真,作者在每个时间步添加雪粒子高斯,并估计表面法线以确定沉积位置。这产生了真实的积雪,如图 13 所示。

对于目标操纵,作者通过使变形模块适应前景上下文,作者实现了灵活多样的动态目标集成。此外,作者采用基于 LLM 的轨迹预测来获取插入目标的轨迹。动态目标插入的结果如图 15 所示。

图 14 提供了与现有 3D 编辑方法的性能比较。虽然 InstructNeRF2Nerf 和 InstructGS2GS 使用扩散模型跨多个任务进行迭代式 3D 场景编辑,但它们在保持照片真实感和视图一致性方面存在局限性。ClimateNeRF 通过表面法线计算专门从事粒子级天气编辑,但其应用缺乏对其他编辑任务的通用性,并且仍局限于静态环境。作者的方法解决了这些局限性,同时在所有编辑任务上实现了高质量的结果。

定量结果与比较

为了评估作者编辑方法的一致性和真实性,作者将 DrivingGaussian++ 与最先进的 3D 和 2D 编辑技术进行了比较。

对于 3D 场景编辑,作者在任务多样性、处理时间和 CLIP-direction 相似性方面与 ClimateNeRF、IN2N 和 IGS2GS 进行比较。如表 II 所示,DrivingGaussian++ 在多样性、效率和文本对齐一致性方面均优于所有其他方法。特别是,对于来自 NuScenes 数据集的场景,DrivingGaussian++ 的编辑时间通常在 3~10 分钟内,显著低于其他需要长时间训练的 3D 编辑模型。

为了评估 DrivingGaussian++ 在单视图编辑上的性能,作者还在不同任务上将其与 2D 编辑方法进行了比较,如表 IV 所示。

对于纹理修改和目标插入,作者与一些修复方法进行比较。虽然 Any-Door 和 Paint-by-Example 利用 2D 图像进行条件编辑,但它们产生不一致的透视关系并且与条件图像的一致性差。SD-Inpainting 以文本提示和 2D 掩码作为输入,但性能和可控性有限。对于天气仿真,作者评估了文本引导的编辑方法。尽管 FreePromptEditing、InstructPix2Pix 和 InstructDiffusion 表现出良好的文本理解能力,但它们的结果往往缺乏物理合理性——例如,雪仅仅被渲染为风格变化而不是累积的降水。InstructDiffusion 在这些天气场景中的编辑结果不太真实。对于目标移除,作者评估了修复和文本引导方法。SD-Inpainting 和 InstructDiffusion 会留下残留伪影,而 LaMa 在场景恢复中会引入明显的不一致性。

作者使用 CLIP direction similarity 指标评估纹理、天气编辑和目标插入的编辑一致性。对于目标移除,作者使用 LPIPS 和 FID(如 SPIn-NeRF 所示)评估质量。DrivingGaussian++ 在所有任务上均实现了卓越的性能。

用于驾驶场景的 3D 高斯前景库

作者构建了一个全面的 3D 高斯前景库,包含各种交通元素:车辆、自行车、摩托车、行人、动物以及标志和交通锥等静态物体。图 16 显示了作者的前景库和插入结果。

在线模型重建。 作者从在线来源和 Chatsim 收集 3D 模型(行人、车辆等),然后使用 3DGS 重建它们。对于每个模型,作者在 Blender 中渲染 360 度视图,并使用 COLMAP 执行 3DGS 重建。作者使用从 nuScenes 提取的环境贴图调整照明。

nuScenes 车辆的稀疏重建。 作者使用 SplatterImage 高效地稀疏重建 nuScenes 中的车辆。每辆车大约需要 2~4 张参考图像进行高斯重建。

基于图像的目标生成。 为了扩展作者的数据集,作者使用图像输入生成 3D 目标。作者首先使用 SAM 提取干净的目标图像。随后,作者使用 DreamGaussian 和 DreamGaussian4D 创建静态和动态 3D 模型,用于少样本 3D 生成,从而能够高效地创建高保真度的静态和动态目标。

消融研究

高斯的初始化先验

作者进行了对比实验来分析不同先验和初始化方法对高斯模型的影响。原始 3DGS 提供两种初始化模式:随机生成的点和使用 COLMAP 计算的 SfM 点。作者另外提供了两种其他方法:来自预训练 NeRF 模型的点云和使用 LiDAR 先验生成的点。

同时,为了分析点云数量的影响,作者将 LiDAR 下采样到 600K 并应用自适应滤波(1M)来控制生成的 LiDAR 点的数量。作者还为随机生成的点设置了不同的最大阈值(600K 和 1M)。这里,SfM-600K±20K 表示由 COLMAP 计算的点数,NeRF-1M±20K 表示预训练 NeRF 模型生成的总点数,LiDAR-2M±20k 指的是 LiDAR 点的原始数量。

如表 V 所示,随机生成的点导致最差的结果,因为它们缺乏任何几何先验。使用 SfM 点初始化也无法充分恢复场景的精确几何结构,因为点稀疏且存在无法容忍的结构错误。利用从预训练 NeRF 模型生成的点云提供了相对准确的几何先验,但仍然存在明显的异常值。对于使用 LiDAR 先验初始化的模型,尽管下采样会导致某些局部区域的几何信息丢失,但它仍然保留了相对准确的结构先验,因此超过了 SfM(图 18)。作者注意到,实验结果并不随 LiDAR 点数量的增加而线性变化。这可以归因于过于密集的点存储了冗余特征,干扰了高斯模型的优化。

模型组件的有效性

作者分析了所提出模型每个模块的贡献。如表 VI 和图 17 所示,复合动态高斯图 (Composite Dynamic Gaussian Graph) 模块在重建动态驾驶场景中起着至关重要的作用,而增量静态 3D 高斯 (Incremental Static 3D Gaussians) 模块能够实现高质量的大规模背景重建。

这两个新颖的模块显著增强了复杂驾驶场景的建模质量。关于提出的损失函数,消融结果表明   和   都显著提高了渲染质量,改善了纹理细节并消除了伪影。此外,来自 LiDAR 先验的   帮助高斯获得更好的几何先验。实验结果还表明,即使没有先前的 LiDAR,DrivingGaussian++ 也表现良好,证明了其对各种初始化方法的强大鲁棒性。


结论

作者介绍了 DrivingGaussian++,一个用于重建和编辑大规模动态自动驾驶场景的框架。作者的方法使用增量静态 3D 高斯逐步建模静态背景,并通过复合动态高斯图捕捉多个移动目标。通过利用 LiDAR 先验,作者实现了精确的几何结构和鲁棒的多视图一致性,显著提高了场景重建的质量。DrivingGaussian++ 促进了无需训练的编辑,用于纹理修改、天气仿真和目标操纵等任务,从而能够生成真实且多样化的驾驶场景。在 nuScenes 和 KITTI-360 等数据集上的实验结果表明,作者的框架在重建和编辑任务上均实现了最先进的性能,能够实现高质量的环视视图合成和动态场景编辑。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值