多传感器三维目标检测的轻量级注意力融合模块
立即解锁
发布时间: 2025-08-21 00:34:46 阅读量: 2 订阅数: 13 


智能计算理论与应用:第17届国际会议精选
### 多传感器三维目标检测的轻量级注意力融合模块
#### 1. 引言
随着自动驾驶车辆的快速发展,三维(3D)目标检测变得愈发重要,其目的是感知现实世界中物体的大小和准确位置。目前,许多基于激光雷达 - 相机的3D目标检测器使用两个复杂的神经网络来提取特定视图的特征,导致检测速度较慢,大约只有10帧每秒(FPS)。
为了解决这个问题,本文提出了一种准确且高效的多传感器框架,采用早期融合方法利用激光雷达和相机数据进行快速3D目标检测。同时,还提出了一个轻量级注意力融合模块,以进一步提高所提出框架的性能。大量在KITTI基准套件上的实验表明,该方法在3D性能的三个类别上优于最先进的基于激光雷达 - 相机的方法。此外,所提出的模型运行速度为23帧每秒,几乎是最先进的激光雷达和相机融合方法的两倍。
#### 2. 相关工作
##### 2.1 基于激光雷达的3D目标检测
目前,基于激光雷达的3D目标检测器主要有三种:基于体素的检测器、基于点的检测器和基于图的检测器。
- **基于体素的方法**:如VoxelNet等,先将原始点云在给定范围内进行体素化,然后使用3D CNN或2D CNN提取特征。不同的是,Yan等人用3D稀疏卷积网络取代了3D CNN,Lang等人则直接将点云组织成垂直列(柱体)以生成2D鸟瞰图(BEV)图像。
- **基于点的检测器**:直接处理原始点云。Charles等人开创了使用共享多层感知器(MLP)独立处理每个点的方法。Qi等人在此基础上引入度量空间距离以学习具有不断增加上下文尺度的局部特征。Yang等人放弃了PointNet++中的上采样层以提高推理速度。
- **基于图的检测器**:Shi和Rajkumar将点云以图的形式进行编码,使用点作为图的顶点。
##### 2.2 多模态3D目标检测
点云和RGB图像的3D目标检测是一个融合问题。以往的工作通常使用两个不同的骨干网络分别提取RGB图像特征和点云特征,这种方法速度慢且消耗大量内存。根据融合方法的不同,这些方法可分为两类:逐点融合和基于感兴趣区域(ROI)的融合。与基于ROI的融合相比,逐点融合更加灵活。本文受逐点融合的启发,探索是否可以直接将原始RGB图像的点特征与点云特征进行聚合。
##### 2.3 注意力模块
Hu等人提出了挤压 - 激励(Squeeze-and-Excitation)块,可插入任何2D网络,这是一个带有全局平均池化(GAP)操作的简单注意力模块。Wang等人的实验表明,全连接层(FC)后的降维会降低性能,但保持特征维度不变会增加计算成本,因此他们提出了跨通道交互。Qin等人证明GAP是频域特征分解的一种特殊情况。本文提出了一个轻量级注意力融合模块。
#### 3. 提出的方法
所提出的模型以点云和RGB图像为输入,预测自行车手、行人和汽车的定向3D边界框。该模型主要包括四个部分:
1. **点特征融合模块**:从RGB图像中提取点特征,并将提取的特征与相应的点云特征进行融合。
2. **体素特征编码器(VFE)模块和3D骨干网络**:将融合后的逐点特征处理成高级表示。
3. **检测头**:对3D边界框进行回归和分类。
4. **损失函数**:使用与PointPillars和SECOND相同的损失函数。
##### 3.1 点特征融合模块
该融合模块由三个子模块组成:点变换模块、点云的体素化和逐点融合模块。
- **输入数据**:模型接受点云和RGB图像作为输入。点和点云通过以下公式映射到原始图像平面:
- \((\mu, \nu, 1)^T = M \cdot (X, Y, Z, 1)^T\)
- \(M = P_{rect} \begin{bmatrix}R_{cam}^{velo} & t_{cam}^{velo} \\ 0 & 1\end{bmatrix}\)
其中,\((\mu, \nu)\)是图像坐标,\(P_{rect}\)是投影矩阵,\(R_{cam}^{velo}\)是从激光雷达到相机的旋转矩阵,\(t_{cam}^{velo}\)是平移向量,\(M\)是从激光雷达到相机的齐次变换矩阵。
- **点变换模块**:基于原始点云从原始RGB图像中提取点特征。首先,将点云投影到相应的图像上以获得对应的图像坐标,然后将RGB值和图像坐标输入图像采样器,输出图像点特征。
- **体素化**:将点云划分为均匀间隔的体素网格,并生成3D点与其相应体素之间的多对一映射。本文采用动态体素化方法,该方法通过保留所有原始点和体素信息使检测更加稳定。
- **逐点融合**:融合点特征\(P_i\)和体素化后的点特征\(P_v\)。由于两个特征的维度不同,使用两个多层感知器层调整它们的维度。常见的融合方法有加法、拼接和轻量级注意力融合模块(LAFM)。融合操作后,使用一个全连接层进一步合并融合后的特征并输出结果\(P_f\)。
##### 3.2 体素特征编码器模块和3D骨干网络
- **体素特征编码器模块*
0
0
复制全文
相关推荐









