DenseBox: Unifying Landmark Localization with End to End Object Detection
(CVPR2015)
论文是2015年提出的一种端到端的算法,同时对目标进行分类和框回归,算法很有前瞻性。DenseBox不需要产生proposal、引入图像金字塔(这个思想后来演变成特征金字塔FPN),网络更加关注小尺寸和严重遮挡的目标。网络经过一列卷积核池化,进行上采样是特征图变大,用于检测更多的目标,再经过一些卷积得到最终的预测输出。这样看来,DenseBox的思想也影响这最近一年中提出来的anchor-free的算法,均是在下采样后又进行上采样,最后再接一些卷积模块预测。DenseBox将输出的特征图转换为目标框,通过NMS和阈值进行输出。
DenseBox设计的初衷是用在人脸检测上。作者为了节约训练时间,没有将一整张图片全部输入网络,而是对输入图片进行了裁剪,裁剪的区域应包括人脸和背景丰富的patches,训练时patches缩放至240*240。在GT生成时,构建的是60*60*5维的张量,人脸区域由以人脸bbox的中心点为圆心、半径为0.3倍于bbox size(人脸的标注框为方形)的圆形区域确定,这也是DenseBox的由来,增加了正样本的比例,而现在较多的anchor-free的方法是采高斯分布+带惩罚的Focal loss予以改进。现在的基于关键点检测的中心点确定一般采用高斯分布处理,而不是像DenseBox这样设置。示意图