RCDINO：利用DINOv2语义特征增强雷达-摄像头3D目标检测-CSDN博客

抽象。三维物体检测对于自动驾驶和机器人技术至关重要，它依赖于来自摄像头和雷达的多模态数据的有效融合。这项工作提出了 RCDINO，这是一种基于多模态 transformer 的模型，它通过将视觉主干特征与预训练的 DINOv2 基础模型中语义丰富的表示融合来增强视觉主干特征。这种方法丰富了视觉表示并提高了模型的检测性能，同时保持了与基线架构的兼容性。在nuScenes数据集上的实验表明，RCDINO在雷达相机模型中实现了最先进的性能，分别为56.4 NDS和48.1 mAP。

关键词：三维目标检测、多模态数据融合、雷达点云、相机图像、基础模型。

1介绍

周围环境的三维感知在自动驾驶、机器人和智能交通系统中起着关键作用。该领域的核心任务之一是 3D 对象检测，它可以实现代理与现实世界之间安全、准确的交互。多模态 3D 检测尤为重要，其中来自摄像头、雷达和 LiDAR 等各种传感器的数据相结合，以实现稳健而精确的物体检测。

相机提供富含纹理和颜色信息的高分辨率图像，但缺乏直接的深度测量。相比之下，即使在恶劣的天气条件下，雷达也能提供可靠的距离和速度信息[1]，但空间分辨率低且缺乏语义细节。有效融合这些互补模式仍然是一项重大且持续的挑战。

近年来，人们提出了许多用于雷达相机三维检测的方法。有些使用鸟瞰图（BEV）表示在三维空间中执行特征融合，这使得来自不同模态的数据能够在公共平面上统一。其他方法采用基于查询的架构，其中对象查询逐步细化以本地化目标。尽管取得了这些进步，但现有解决方案的视觉特征语义丰富度往往有限，这阻碍了对远处物体的检测——这是可靠自主感知的基本能力。

在本文中，我们提出了雷达-相机DINO（RCDINO），这是一种新型的雷达-相机3D检测框架，它通过预训练的DINOv2模型提取的语义丰富的特征来增强标准视觉主干[2].为了有效地整合这些功能，我们引入了一个轻量级适配器模块，将 DINOv2 表示融合到现有管道中。

我们的设计灵感来自基于查询的架构（如 RCTrans）的最新进展[3].在消融研究中，我们调查了基线模型解码器组件的影响，发现两阶段解码器提高了检测性能，即使一种模式提供的信息量较少的特征。这凸显了解码器架构在有效多模态融合中的重要作用。

我们在 nuScenes 数据集上验证了我们的方法[4]以及我们团队收集的真实世界雷达相机数据，在实际环境中展示了强大的探测性能和稳健性。我们的主要贡献是：

隆重推出 RCDINO，这是一种雷达相机 3D 检测模型，它通过轻量级适配器通过预训练的 DINOv2 表示来丰富视觉特征。
提供消融研究，分析两阶段解码器设计的好处，与特征信息量无关。
在公共基准和实际收集的数据上验证该方法，确认通用性和实用性。
发布我们的实施以促进进一步的研究和可重复性。

2相关工作

2.1基于BEV的3D物体检测

最常见的 3D 物体检测方法是基于鸟瞰图（BEV）表示，其中来自各种传感器的数据被投影到统一坐标系中。根据相机图像构建 BEV 的一个主要挑战在于深度估计不准确，BEVDepth[5]通过引入可学习的深度模块来解决问题。为了改进物体速度预测并减少漏检，许多工作都包含时间信息。BEV架构[6]率先将顺序时间建模引入多相机三维目标检测。独奏音乐[7]进一步论证了长期和短期时间融合相辅相成，提出了相应的双流融合方法。另一种利用 BEV 和时间融合来实现特征图传播的方法是 FMFNet[8].

BEV 还可以作为跨模式特征融合的统一表示空间。BEV产品[9]是最早使用 BEV 作为多模态融合的通用表示空间的方法之一。BEV 表示允许显式对齐来自不同来源的数据，使其非常适合跨模态集成。另一件作品，BEVCar[10]，提出了一种在纯电动汽车空间中进行物体和地图分割的统一方法。它的主要新颖之处在于最初从原始雷达数据中学习逐点编码，然后用于有效地初始化图像特征投影到纯电动汽车空间中。使用的主干是基础模型 DINOv2[2]使用适配器 - 一个激发我们方法的想法。

尽管使用统一的 BEV 空间具有优势，但不同 BEV 表示之间的错位误差会降低融合质量。一些方法通过注意力机制来解决这个问题。例如，RCBEVDet[11]通过 RadarBEVNet 将雷达点转换为 BEV 特征，并使用交叉注意力模块将它们与图像特征融合。同样，CRN[12]应用可变形的跨模态注意力来对齐 BEV 空间中的图像和雷达特征。

2.2超越纯电动汽车方法

在纯电动汽车范式之外还有替代方法。一种值得注意的纯图像方法是 ImVoxelNet[13]，它具有卷积架构，能够处理来自不同位置相机的单视图和多视图图像。它在室内和室外环境中都表现良好，仅根据域的不同，检测头的差异不同。DAGM-单声道[14]使用可变形的注意力引导框架处理单眼 3D 姿势估计和形状重建。通过引入基于倒角的损耗并利用物体间和场景上下文，它在 ApolloCar3D 上实现了最先进的结果，并提高了现有单目 3D 探测器的精度。MV软件[15]引入语义对齐的雷达编码器 SARE，并使用变压器构建强大的功能。SpaRC的[16]使用基于视锥体的融合和局部自注意力来增强定位精度。水螅[17]应用高度关联变压器来改进使用雷达特征的深度估计。RVC德特[18]通过引入与基于柱状模型的快速动态体素化器和用于过滤误报的轻量级子标题，解决基于激光雷达的 3D 检测的实时性能和可靠性问题。

2.3基于查询的 3D 对象检测

基于查询的方法代表了 3D 对象检测的另一种主要范例。在这些方法中，对象查询通过注意力机制与输入标记交互，以优化预测。DETR3D的[19]引入了一组 3D 参考点，每个参考点都与对象查询相关联。随后的研究重点是更有效地提取这些查询的图像特征。切赫[20]提出激光雷达坐标中图像特征的位置编码。角[21]在相机坐标中构建位置编码，以减少相机外部变化的影响。溪流PETR[22]提出了一种基于查询的长期时序融合算法，将历史对象信息携带到当前帧中。

现代方法越来越多地结合了 BEV 和基于查询的范式的优势。RaCFormer[23]例如，从 BEV 空间和直接从图像中提取与对象查询相关的特征，通过从雷达和图像特征中学习深度图来减少深度估计误差。它还在极坐标中引入了自适应查询初始化，并利用 BEV 特征中基于多普勒的运动线索来增强时间建模。随机对照[3]同样实现基于查询的方案，但侧重于使用雷达密集编码器丰富雷达特征，然后在标记级别与图像特征融合。采用顺序解码器来迭代细化对象位置。

3方法

所提出的模型RCDINO（Radar-Camera DINO）是一种多模态3D目标检测器，具有基于Transformer的解码器，可使用相机和雷达特征迭代细化目标查询。如图1所示，该架构由五个主要组件组成：视觉编码器、DINOv2适配器、稀疏雷达编码器、密集雷达编码器和顺序解码器。

图 1：RCDINO 模型的架构。关键的新颖之处在于 DINOv2 适配器，它将语义丰富的功能集成到视觉主干中。摄像头和雷达分支可以单独禁用;每个分支的影响在消融研究（第 5 节）中进行分析。

3.1视觉编码器

对于多相机设置中的每张图像，使用标准卷积或基于变压器的主干网（例如 ResNet）提取视觉特征[24]或视觉转换器（ViT）[25]. 这些特征是压缩的表示，稍后与 DINOv2 特征融合，以增强场景理解。

3.2DINOv2 适配器

为了将预训练的 DINOv2 模型中的语义丰富的特征集成到我们的检测管道中，我们采用了一个轻量级适配器模块，该模块在两个方向（注入和提取）上与 DINOv2 主干网交互。

适配器的工作原理如下：

首先，卷积特征提取器处理来自标准卷积主干（例如ResNet18）的输入图像特征，以生成与DINOv2内部分辨率一致的多尺度空间特征。
然后，使用我们称之为注入器的模块将这些特征注入到 DINOv2 的中间层中。注入器执行可变形注意力和归一化，以将外部特征与内部 DINOv2 表示融合。注入特征的影响由可学习标量门调制。
然后，DINOv2 像往常一样执行推理，允许注入的特征通过其 transformer 层传播，并在大规模预训练的语义上下文中进行细化。
推理后，使用提取器检索修改后的特征，提取器应用具有空间反馈的卷积前馈层，从修改后的 DINOv2 特征中提取特定于任务的表示。

提取的特征值和投影以匹配主视觉主干的尺寸。然后，可学习的融合层将原始主干特征与提取的 DINOv2 特征相结合。

这种适配器结构允许 DINOv2 充当视觉感知的语义增强器：它通过与其预训练知识的交互来细化外部任务特定特征，然后将丰富的表示返回到检测网络。重要的是，除非明确微调，否则适配器不会修改 DINOv2 权重，从而保留大规模预训练的优势，同时保持计算效率。

3.3雷达稀疏编码器

雷达点使用受 Futr3D 启发的基于支柱的方法进行处理[26].雷达输入P∈ℝNr×5包括 3D 坐标、补偿速度和时间偏移。多层感知器（MLP）提取聚合到 BEV 网格中的逐点特征。该组件在结构上类似于基线雷达编码器。

3.4雷达密集编码器

为了减轻雷达信号的稀疏性，受 U-Net 启发的密集编码器[27]被雇用。密集的 BEV 雷达图B∈ℝHr×Wr×Cr被构造，从中提取多分辨率特征：Bd={B我∈ℝHr2我×Wr2我×C我,我=1,2,3}.以最低分辨率（B3），生成自适应增强特征图Bf，通过 2D 位置编码进行增强。最终输出被上采样并与中间连接Bd层，符合 U-Net 风格的设计。

3.5顺序变压器解码器

多模态数据使用轻量级顺序解码器进行融合，该解码器以级联方式而不是通过统一块处理相机和雷达特征。这种结构简化了特征集成并减少了计算开销，同时支持联合空间推理。

解码序列从包含位置嵌入的对象查询开始。这些查询首先使用相机衍生的 BEV 特征进行细化，然后使用雷达测距视图（RV）特征进行细化。这种分阶段注意力可以有效利用来自每种模态的互补空间和语义信息。

通过合并早期帧的记忆特征来保持时间一致性。每个阶段都通过可变形的注意力，使用学习的位置编码来关注这些。这种方法支持跟踪并提高动态或遮挡场景中的鲁棒性。

在每个阶段，对象查询都通过学习的转换进行更新。参考点细化是使用以下方法执行的：

哪里Rn表示当前参考位置，并且ΔR预测的偏移量。更新的查询通过分类和回归头进行处理，以生成对象类别和 3D 边界框。

最终输出包括预测的类标签、3D 框和中间查询状态。解码器的模块化和轻量级结构支持可扩展的多模态和时间推理。

4实验

4.1数据集和指标

和原著一样[3]，在广泛使用的自动驾驶数据集上进行了实验，并带有3D目标检测标注 - nuScenes[4].该数据集包含 1000 个场景，分为三个部分：700 个用于训练，150 个用于验证，150 个用于测试。nuScenes 中的每一帧包括 6 个相机图像和 5 个雷达点云，覆盖了整个360∘.该数据集包含大约 140 万个标记的 3D 边界框，涵盖 10 个类别：汽车、卡车、公共汽车、拖车、工程车辆、行人、摩托车、自行车、交通锥和护栏。一些类还使用描述对象状态的附加属性进行注释，例如它是静止的还是移动的。

3D 检测的主要评估指标是 nuScenes 检测分数（NDS）和平均精度（mAP）。NDS 是 mAP 和数据集作者定义的其他几个指标的加权和，包括：平均平移误差（ATE）（米）、平均尺度误差（ASE）（1 - 3D IoU）、平均方向误差（AOE）（弧度）、平均速度误差（AVE）（m/s）、平均属性误差（AAE）（1 精度）。

4.2实施细节

与原始 RCTrans 培训程序一样[3]，将累积前 4 帧的信息以对当前帧进行预测。

Transformer 中的解码器层数在训练期间设置为 6，在推理期间设置为 3。查询数、内存队列大小和传播查询数分别设置为 900、512 和 128。

雷达点是从 CRAFT 之后的前 6 帧累积的[28].鸟瞰图（BEV）雷达特征图设置为128×128.

DINOv2 模型[2]与适配器一起使用。使用预训练的 DINOv2-small 模型的权重，补丁大小为14×14.为了适应此模型，输入图像大小已调整为224×448使用双线性插值。从 4 层 DINOv2 中提取特征，并使用插值和卷积进行融合。然后将生成的特征插值到16×44并使用可学习的加权系数与 ResNet 功能相结合。

该网络从原始模型的预训练权重开始训练了 16 个 epoch，批量大小为 12，梯度累积超过 3 个步骤，在 2 个 NVIDIA A100 GPU 上。速度是在单个 NVIDIA RTX3090 GPU 上评估的。使用 AdamW 进行优化，权重衰减10−2.学习率是使用固定步长策略安排的：1×10−6对于前 11 个纪元和1×10−7对于最后 5 个纪元。

4.3结果

实验表明，将预训练的DINOv2模型与RCTrans架构集成可以提高nuScenes数据集上的3D目标检测性能[4].我们观察到0.4%在 NDS 和0.7%与基线 RCTrans 模型相比，mAP 中。表1显示了不同3D检测模型在nuScenes验证集上的性能比较。虽然 RCDINO 比基线 RCTrans 实现了 +0.4 NDS 和 +0.7 mAP 的适度改进，但它也引入了推理延迟的增加 - 从每帧 48.9 毫秒增加到 85.2 毫秒。尽管推理时间几乎翻了一番，但最终延迟对于许多机器人系统来说仍然是可以接受的，并且特别适用于低速导航或离线注释任务。此外，加速推理并不是这项工作的目标。目标是评估将基础模型功能整合到雷达-摄像机融合架构中，同时进行最少的管道修改的潜在好处。图 2 显示了 nuScenes 验证集上 3D 对象检测的定性结果。出于说明目的，每个场景仅显示一个摄像机图像，因为它揭示了最明显的差异。

图2：nuScenes 验证集上的定性 3D 对象检测结果。顶行表明丰富视觉特征可以准确检测远处的物体，而底行则显示了对不可见物体的正确分类。表1：nuScenes验证集上的3D对象检测结果比较。C 和 R 分别表示摄像头和雷达。* - 推理时间取自[3].

方法

输入

图像

骨干

NDS （%）↑

百万分寸（%）↑

推理

时间（毫秒）

↓

CRN[12]

钢筋混凝土

ResNet18

54.3

44.8

35.8*

RCBEV德[11]

钢筋混凝土

ResNet18

54.8

42.9

35.3*

RobuRCDet[29]

钢筋混凝土

ResNet18

55.0

45.5

74.8

随机对照[3]

钢筋混凝土

ResNet18

56.0

47.4

48.9

RCDINO

钢筋混凝土

ResNet18

56.4

48.1

85.2

BEV第三天[5]

ResNet50

47.5

35.1

86.2*

BEV产品2[30]

ResNet50

52.6

40.6

60.2*

独奏音乐[7]

ResNet50

53.4

42.7

87.7*

溪流PETR[22]

ResNet50

54.0

43.2

36.9*

CRN[12]

钢筋混凝土

ResNet50

56.0

49.0

49.0*

RCBEV德[11]

钢筋混凝土

ResNet50

56.8

45.3

47.0*

RobuRCDet[29]

钢筋混凝土

ResNet50

56.7

51.2

113.6

随机对照[3]

钢筋混凝土

ResNet50

58.6

50.9

84.1

RCDINO

钢筋混凝土

ResNet50

59.0

51.4

156.9

为了更好地了解DINOv2功能对检测性能的影响，我们在表2中报告了RCTrans和RCDINO的每类AP。结果表明，RCDINO在卡车、公共汽车、工程车辆、行人、自行车和护栏等多个类别中取得了改进。这些对象类型通常语义复杂或视觉上不明确，这表明 DINOv2 的高级语义表示可以改进在具有挑战性的情况下的检测。在一些占主导地位的类别中，例如汽车和摩托车，基线实现了略高的 AP。

表2：nuScenes 验证集上 RCTrans 和 RCDINO 的每类 AP （%）。粗体表示最佳性能。

型	汽车	卡车	总线	拖车	宪法。	ped。	摩托	自行车	球果	障碍
随机对照	72.9	41.3	44.3	20.9	18.6	55.4	49.8	44.3	67.1	60.9
RCDINO	72.4	43.2	45.2	20.2	19.1	55.6	49.3	46.1	67.0	61.9

5消融研究

5.1Transformer 解码器的实验

除了修改RCTrans架构的编码器部分，我们使用Transformer解码器和整体网络架构进行了实验，以研究不同模态对3D目标检测性能的影响。作者提出了一种不寻常的变压器检测头设计，其中包括对目标查询位置嵌入的顺序细化。根据查询的参考点，预先计算 2D 和 3D 位置嵌入。

首先，将查询的二维位置嵌入传递到变压器层，变压器层通过交叉注意力与二维雷达嵌入（在BEV特征图的坐标中）进行交互，从而更新查询。然后，在下一个 transformer 层中，使用查询的 3D 位置嵌入，并通过与图像位置嵌入的交叉注意力进行类似的转换。这两个解码器层的输出更新了查询的参考点，并重复整个过程。这样，查询位置就会迭代细化。

然而，作者[3]没有研究位置嵌入细化组件之一的缺失如何影响预测质量。本节介绍了此类实验和相应的结论。

首先，我们进行了实验，其中一种模态从整个网络架构中删除。移除相机或雷达分支自然会导致预测性能下降。使用预训练完整模型的初始化进行训练，这有助于减少训练时间。删除整个传感器模态分支时，相应的查询位置嵌入（2D 或 3D）也会从解码器中排除。为了保持网络深度，缺失的组件层被替换为使用剩余组件的图层。因此，该网络由多个相同的变压器层组成。

当其中一种模态被删除时，检测质量的显着下降强调了查询位置编码的两个组件在变压器头中的重要性。因此，我们进行了一项额外的实验，试图保留查询令牌架构的原始形式，尽管其中一个传感器没有数据。

为了满足这一条件，检测头中缺失的传感器中的特征被替换为张量。与之前的实验一样，该模型使用具有 ResNet18 主干的完整 RCTrans 模型的预训练权重进行初始化。此设置模拟其中一个传感器无法提供数据的情况。

在雷达停用的情况下，BEV 特征图被 1 的张量替换。如果禁用相机，则来自主干和颈部的图像特征也会替换为与预期特征张量维度匹配的张量。

得出了一个有趣的观察结果：以这种方式禁用一种模式对纯图像模型的性能下降比完全删除雷达分支（以及 2D 位置嵌入）的影响更小。这表明保留头部结构和查询位置嵌入——即使没有信息特征——也会给模型带来一些优势。这些实验的结果如表1所示。

表1：禁用变压器解码器模态和组件的实验结果。C 和 R 分别表示摄像头和雷达。

输入	阶段	地图↑	伴侣↓	mASE↓	mAOE↓	马维↓	mAAE↓	NDS系统↑
R	一	0.0	111.5	63.4	71.1	92.8	58.3	11.5
R	二	1.3	98.5	61.2	66.0	80.2	55.7	14.5
C	一	23.0	89.2	28.7	74.0	99.1	26.2	29.8
C	二	30.1	79.7	28.4	63.7	51.0	25.7	40.2
钢筋混凝土	二	47.4	54.0	27.4	55.7	20.8	19.0	56.0

图3显示了使用不同雷达模态消融策略获得的nuScenes验证集上的3D目标检测定性结果。可以看出，在没有查询的二维位置嵌入的情况下（即当雷达分支被移除时），模型可以预测同一物体的多个位置，置信度高但深度不同。这在鸟瞰图可视化中尤为明显。同时，保留查询的二维位置嵌入（即用 1 的张量替换雷达特征）可以让模型更准确地预测物体位置，尽管精度仍然低于完整模型。这表明保留 Transformer 头结构和查询位置嵌入 - 即使没有有意义的特征 - 也会给模型带来一些优势。

尽管用张量替换缺失传感器的特征可能看起来过于简单，但有意选择这种方法是为了模拟传感器的完整故障，而无需引入额外的可学习组件或假设。有人可能会建议用在训练集上计算的平均激活数替换缺失的特征。然而，这需要为每个架构和训练设置积累特征统计数据，这不是这些消融实验的目标。我们的目的是证明，即使信息量最少（即单位张量），保留 transformer 解码器的结构（包括位置嵌入和两阶段细化）也比删除整个模态分支产生更好的结果。换句话说，维护解码器的结构提供了一种架构先验形式，使网络能够更好地处理缺失的输入。

图 3：分析雷达和相机模态以及解码器组件对 nuScenes 验证集 3D 检测性能的影响。第二行显示，删除相机模态会降低检测质量。第三行和第四行表明，即使没有信息雷达特征，使用两级解码器也能降低模型在 3D bbox 定位中的不确定性。

5.2仅限 DINOv2 的主干网。

我们还评估了预训练的DINOv2-small模型是否可以作为独立的图像编码器代替标准的ResNet18主干网。在此设置中，DINOv2 特征被提取并直接传递到检测头，不存在基于 ResNet 的编码器。该模型使用与其他实验相同的训练计划和超参数对模型进行了 22 个时期的训练，从预训练的 RCTrans 权重开始。结果性能极差：模型未能学习有意义的物体检测，实现了0.0%的mAP和仅6%的NDS。其他指标也同样下降（mATE = 1.076，mASE = 0.839，mAOE = 1.082，mAVE = 0.872，mAAE = 0.692）。这些结果证实，尽管DINOv2具有丰富的语义，但单独使用DINOv2缺乏准确3D对象检测所需的空间分辨率和架构感应偏差。我们的研究结果支持使用 DINOv2 功能作为可训练视觉骨干的补充而不是替代品。

5.3对收集的数据集进行推理

为了评估RCDINO模型的泛化能力，我们使用了VegaFull数据集[31]，在现场测试期间收集。 VegaFull 数据集包括来自前置摄像头和 4D 雷达的同步数据，这些数据在俄罗斯三个地理和环境不同的地区收集：多尔戈普鲁德尼、契诃夫和阿尔丹。总数据量约为 2 TB，包括在各种天气和地形条件下拍摄的 1280x720 RGB 图像。

VegaDolgoprudny 是在越野驾驶过程中收集的，以捕捉坑洼和水坑等道路缺陷，从而在道路边缘几何形状和表面特征方面提供丰富的可变性。
维加契诃夫包含工业区的场景，包括建筑机械、土堆、栅栏和结构化越野驾驶特有的障碍物。
VegaSeligdar 是在冬季条件下在白雪覆盖的采石场录制的，包括弱光和零度以下的温度场景，移动的机器和穿着安全装备的人类工人。

由于其环境可变性，VegaFull 适用于评估雷达-相机融合模型在现实场景和不利条件下的鲁棒性。

为了评估 RCDINO 模型在收集的 VegaFull 数据集上的泛化，进行了推理程序。由于传感器配置的差异——特别是只有一个摄像头和雷达——该模型适应了这些新条件。仅使用前置摄像头和雷达在nuScenes数据集上对RCDINO模型进行了微调。这使得模型能够适应新的设置，并在收集的数据集上执行 3D 对象检测，而无需尝试从没有传感器数据可用的方向预测对象。

图 4 显示了 VegaFull 数据集上的 3D 对象检测结果。该模型成功检测了物体，展示了其对新数据的泛化能力和鲁棒性。然而，在收集VegaFull数据集的过程中，没有记录有关飞行器在太空中的位置的信息，这对于预测的时间对齐和雷达点云积累至关重要。在没有此类信息的情况下，每个时刻仅使用当前帧的雷达点云。使用来自 nuScenes 数据集的人工里程计数据进行预测的时间对齐，该数据无法提供空间中准确的物体定位。

为了提高未来的预测质量，我们计划实施一种视觉里程计算法，该算法将使用摄像头数据来估计车辆在空间中的位置。这将允许，首先，从前一帧中积累雷达点云，其次，使用车辆运动信息来合并以前的预测并提高当前帧预测的准确性。

图4：RCDINO模型在收集的VegaFull数据集上的3D目标检测结果

6结论

在这项工作中，我们提出了 RCDINO，这是用于雷达相机 3D 对象检测的 RCTrans 架构的增强版本。我们的方法通过轻量级适配器模块将预训练的 DINOv2 基础模型中语义丰富的视觉特征集成到 RCTrans 管道中。这种集成使模型能够利用大规模自监督学习的泛化能力，同时保持与原始架构的兼容性。

通过对 nuScenes 验证集的一系列实验，我们量化了将基础模型纳入 3D 检测管道的效果。与基线相比，RCDINO的NDS提高了0.4%，mAP提高了0.7%，展示了DINOv2功能在3D对象检测方面的切实优势。在像 nuScenes 这样竞争激烈的基准测试中，即使是零碎的收益也至关重要，因为它们反映了在实际应用中实现最先进性能和提高可靠性的有意义的进展。

在未来的工作中，我们计划通过添加一个利用雷达数据的可训练深度估计模块来进一步修改 RCTrans 的增强版本。这将使图像特征更准确地转换为纯电动汽车空间，并有可能进一步提高目标检测性能。