YOLO
-
将物体检测这个问题定义为bounding box和分类置信度的回归问题。
-
将整张图像作为输入,划分成SxS grid,每个cell预测B个bounding box(x, y, w, h)及对应的分类置信度(class-specific confidence score)。分类置信度是bounding box是物体的概率及其与真实值IOU相乘的结果。
SSD
-
将物体检测这个问题的解空间,抽象为一组预先设定好(尺度,长宽比,1,2,3,1/2,1/3)的bounding box。
-
在每个bounding box,预测分类label,以及box offset来更好的框出物体。
-
对一张图片,结合多个大小不同的feature map的预测结果,能够处理大小不同的物体。
区别
-
YOLO在卷积层后接全连接层,即检测时只利用了最高层Feature maps。而SSD采用金字塔结构,即利用了conv4-3/fc7/conv6-2/conv7-2/conv8_2/conv9_2这些大小不同的feature maps,在多个feature maps上同时进行softmax分类和位置回归
-
SSD还加入了Prior box(先验框)
https://zhuanlan.zhihu.com/p/89200261