背景
Fast R-CNN存在一个缺点,它需要使用selective search提取框,这个方法比较慢,有时检测一张图片,大部分时间不是花费在神经网络分类上,而是花在selective search提取框上。而它的升级版Faster R-CNN中,使用RPN网络取代了selective search,不仅速度大大提高,而且获得了更加精确的结果。
网络结构
对于任意大小的图片,首先缩放至固定大小MxN,然后将图像送入网络;Conv中包含了13个conv层+13个relu层+4个pooling层;RPN网络首先经过3x3卷积,再分别生成positive anchors和对应bounding box regression偏移量,然后计算出proposal;而ROI Pooling层则利用proposals从feature maps中提取proposals feature送入后续全连接和softmax网络做classification。
关键点
RPN网络
- 在feature map上滑动窗口
- 建一个神经网络用于物体分类+框位置的回归
- 滑动窗口的位置提供了物体的大体位置信息
- 框的回归提供了框更精确的位置
RPN网络实际