CVPR2021 | DETR3D:3D Object Detection from Multi-view Images via 3D-to-2D Queries论文翻译

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

通过三维到二维查询从多视角图像中检测三维物体

摘要

我们介绍了一种多摄像头三维物体检测框架。与直接从单目图像估算三维边界框或使用深度预测网络从二维信息生成三维物体检测输入的现有工作相比,我们的方法直接在三维空间中操作预测。我们的架构从多个摄像头图像中提取二维特征,然后使用稀疏的三维物体查询集对这些二维特征进行索引,利用摄像头变换矩阵将三维位置与多视角图像联系起来。最后,我们的模型对每个物体查询进行边界框预测,并使用集对集损失来衡量地面实况与预测之间的差异。这种自上而下的方法优于自下而上的方法,后者是根据每个像素的深度估算进行物体边界框预测,因为它不会受到深度预测模型带来的复合误差的影响。此外,我们的方法不需要非最大值抑制等后处理,大大提高了推理速度。我们在 nuScenes 自动驾驶基准测试中取得了一流的性能。
1 引言  
从视觉信息中检测三维物体是低成本自动驾驶系统长期面临的挑战。利用激光雷达等模式收集的点云进行物体检测可以从可见物体的三维结构信息中获益,而基于摄像头的环境则更加困难,因为我们必须仅从 RGB 图像中包含的二维信息生成三维边界框预测。
现有方法 [1, 2] 通常纯粹通过 2D 计算建立检测管道。也就是说,它们使用为 2D 任务设计的物体检测管道(如 CenterNet [1]、FCOS [3])来预测物体姿态和速度等 3D 信息,而不考虑 3D 场景结构或传感器配置。这些方法需要几个后处理步骤来融合各摄像机的预测结果并去除冗余框,因此在效率和效果之间需要进行慎重权衡。作为这些基于 2D 的方法的替代方案,一些方法将更多的 3D 计算纳入了我们的物体检测管道,通过应用 3D 重构方法(如 [4, 5, 6] 等),从摄像机图像中创建场景的伪激光雷达或测距输入。然后,他们就可以对这些数据应用三维物体检测方法,就像直接从三维传感器收集数据一样。然而,这种策略会产生复合误差 [7]:深度值估计不准确会对 3D 物体检测的性能产生严重的负面影响,而 3D 物体检测本身也会产生误差。
在本文中,我们为自动驾驶提出了一种在二维观测和三维预测之间更优雅的过渡方法,它不依赖于密集深度预测模块。我们的框架被称为 DETR3D(多视图 3D 检测),以自上而下的方式解决这一问题。我们通过相机变换矩阵进行几何反投影,将二维特征提取和三维物体预测联系起来。我们的方法从一组稀疏的物体先验开始,这些先验在整个数据集中共享,并且是端到端学习的。为了收集特定场景的信息,我们将从这些物体先验解码出的一组参考点反向投影到每个摄像头,并获取由 ResNet 主干网提取的相应图像特征[8]。然后,从参考点图像特征中收集的特征通过多头自注意层 [9] 相互影响。在一系列自注意层之后,我们从每一层读取边界框参数,并使用受 DETR [10] 启发的集对集损失来评估性能。
我们的架构不执行点云重建,也不对图像进行明确的深度预测,因此对深度估计中的错误具有鲁棒性。此外,我们的方法不需要任何后处理,如非最大抑制(NMS),从而提高了效率,减少了对手工设计的净化输出方法的依赖。在 nuScenes 数据集上,我们的方法(不含 NMS)与现有技术(含 NMS)不相上下。在摄像机重叠区域,我们的方法明显优于其他方法。
贡献。我们的主要贡献总结如下:
- 我们提出了一种简化的 RGB 图像 3D 物体检测模型。与在最后阶段将来自不同摄像机视图的物体预测信息合并在一起的现有工作不同,我们的方法在每一层计算中都融合了来自所有摄像机视图的信息。据我们所知,这是首次尝试将多摄像头检测作为三维集对集预测。
- 我们引入了一个模块,通过后向几何投影将二维特征提取和三维边界框预测连接起来。它不会受到来自辅助网络的不准确深度预测的影响,并通过将三维信息反向投影到所有可用帧上,无缝使用来自多个摄像头的信息。
- 与对象 DGCNN [11]类似,我们的方法不需要后处理,如每个图像或全局 NMS,与现有的基于 NMS 的方法相当。在摄像机重叠区域,我们的方法大大优于其他方法。
- 我们发布了我们的代码,以促进可重复性和未来研究。

2 相关工作
2D 物体检测。
RCNN [12] 率先使用深度学习进行物体检测。它将一组预选的对象建议输入卷积神经网络(CNN),并据此预测边界框参数。虽然这种方法表现出了令人惊讶的性能,但它比其他方法慢了一个数量级,因为它要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值