文章目录
一、YOLOv11与单目3D目标检测基础
1.1 YOLOv11架构概述
YOLOv11是Ultralytics公司推出的最新一代目标检测模型,它在YOLOv10的基础上进一步提升了精度和速度的平衡。YOLOv11采用了一种新的多尺度特征融合机制和增强的数据增强策略,使其在保持实时性的同时,显著提升了对小目标和密集目标的检测能力。
与先前版本相比,YOLOv11的主要改进包括:
- 更高效的主干网络:使用RepVGG风格的重参数化块,在训练时使用多分支结构增强学习能力,在推理时转换为单一分支保持高效率
- 自适应标签分配:根据训练进度动态调整正负样本定义策略
- 多尺度注意力机制:引入空间和通道注意力模块,增强特征表示能力
YOLOv11支持多种视觉任务,包括目标检测、实例分割、姿态估计和分类任务,为其扩展3D检测能力奠定了坚实基础。
1.2 单目3D目标检测的基本原理
单目3D目标检测是从单个RGB图像中估计场景中物体的3D边界框(包括位置、尺寸和方向)的技术。与基于激光雷达或立体视觉的方法相比,单目方法成本更低且更易于部署,但也面临更大挑战,因为需要从2D信息推断3D结构。
单目3D检测的核心挑战是深度估计