目录
简介
项目中使用到一个3D bounding box的开源项目,项目中使用的是KITTI自动驾驶数据集,队友使用NVIDIA Deep learning Dataset Synthesizer生成我们项目所需的虚拟数据集,需要将json格式的虚拟数据集转换成KITTI格式的数据集来使用。做完这一部分会自己尝试一下生成虚拟数据集部分。
要完成格式转换就需要将KITTI数据集label的各项参数搞懂。本文前部分会总结一些我现在所理清的参数含义,参考了KITTI的devkit中的readme文档和matlab部分的代码,还有很多没有完全搞清的部分。先记录搞明白的部分。
KITTI数据集简介
The data acquisition platform of KITTI dataset is equipped with two gray cameras, two color cameras, a velodyne 64 line 3D lidar, four optical lenses and a GPS navigation system.
The entire dataset we are using now is based on CAM2.
KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。
- 相机:x 轴向右,y 轴向下,z 轴向前
因为本项目不需要激光雷达和GPS等其他设备,只需要图像摄像头所得到的图像来生成3D Bounding box,所以只关注了Cam2的内容,训练使用的数据集也只是Left color images。
如果要使用虚拟引擎来制作虚拟数据集,坐标系需要和KITTI中相机的坐标系相对应。
Label解析
先从训练集来看,label文件中每个object有15个参数,每个参数的具体解释可以在devkit的readme文件中找到。
举例来说,这张图片是训练集中的其中一张
截取label文件的其中一句来分析:
Car 0.00 0 -1.56 564.62 174.59 616.43 224.74 1.61 1.66 3.20 -0.69 1.69 25.01 -1.59
对应devkit中readme文件对label的解析:
type
- type : Car
物体的分类为车