VOC数据库详解(个人记录)

PASCAL VOC 挑战赛提供了一个用于视觉对象分类和检测的基准测试平台,包含20类物体的高质量图像注释数据集。本文详细介绍了VOC2012数据集的结构,包括Annotations、ImageSets、JPEGImages等关键组成部分,以及XML文件中目标真值区域的详细标注信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

官网链接:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

 

部分主要的VOC数据库文件夹的格式如下:

Annotations:   图片的注释,目标真值区域,xml文件内标注了真值区域的boundingbox信息
ImageSets:    存放图片的文件夹,有三个文件夹[Layout][Main][Segmentation]。[Main],它内部存储类别标签,-1表示负样本,+1为正样本
JPEGimages:   存放所有图片的文件夹,jpg格式的图片,大小一般为 500*375 或 375*500
labels:       图片的类别

VOC整体框架(摘自https://blog.csdn.net/zhayushui/article/details/80277877):

VOCdevkit/                           # development kit
VOCdevkit/local                      #  
VOCdevkit/result                     # 

VOCdevkit/VOC2007                    # image sets, annotations, etc.  重点关注
VOCdevkit/VOC2007/Annotations        # 目标真值区域,xml文件内标注了真值区域的boundingbox信息
VOCdevkit/VOC2007/ImageSets          # 类别标签,ImageSets 中有三个文件夹[Layout][Main][Segmentation],分类识别我们只关注[Main],它内部存储类别标签,-1表示负样本,+1为正样本
VOCdevkit/VOC2007/JPEGImages         # jpg格式图像,大小一般为 500*375 或 375*500
VOCdevkit/VOC2007/SegmentationClass  #
VOCdevkit/VOC2007/SegmentationObjec  #

VOCdevkit/VOCcode/                   # VOC utility code
VOCdevkit/devkit_doc.pdf             # VOC2007数据集说明文档,除了person数量较多,其他类别样本个数不算多,在如此小的数据集上,深度学习能获得较高的分类识别结果,足以说明深度学习的强大性能。
VOCdevkit/*.m                        # 其他m执行文件

 

 

Annotations:存放每张图片的XML文件,该文件内容有每张图片目标的BBOX坐标、图片名称、类别等信息,文件的内容具体为:

<annotation>  
	<folder>VOC2012</folder>                             
	<filename>2007_000392.jpg</filename>                  //文件名  
	<source>                                            //图像来源(不重要)  
		<database>The VOC2007 Database</database>  
		<annotation>PASCAL VOC2007</annotation>  
		<image>flickr</image>  
	</source>  
	<size>                //图像尺寸(长宽以及通道数)                        
		<width>500</width>  
		<height>332</height>  
		<depth>3</depth>  
	</size>  
	<segmented>1</segmented>      //是否用于分割(在图像物体识别中01无所谓)  
	<object>                              //检测到的物体  
		<name>horse</name>                //物体类别  
		<pose>Right</pose>                //拍摄角度  
		<truncated>0</truncated>          //是否被截断(0表示完整)  
		<difficult>0</difficult>   //目标是否难以识别(0表示容易识别)  
		<bndbox>                  //bounding-box(包含左下角和右上角xy坐标)  
			<xmin>100</xmin>  
			<ymin>96</ymin>  
			<xmax>355</xmax>  
			<ymax>324</ymax>  
		</bndbox>  
	</object>  
	<object>                                      //检测到多个物体  
		<name>person</name>  
		<pose>Unspecified</pose>  
		<truncated>0</truncated>  
		<difficult>0</difficult>  
		<bndbox>  
			<xmin>198</xmin>  
			<ymin>58</ymin>  
			<xmax>286</xmax>  
			<ymax>197</ymax>  
		</bndbox>  
	</object>  
</annotation>  

 

123

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JensLee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值