Mask R-CNN简介

最新推荐文章于 2025-05-26 17:07:00 发布

qq_16540387

最新推荐文章于 2025-05-26 17:07:00 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_16540387/article/details/81839977

深度学习专栏收录该内容

29 篇文章

订阅专栏

本文介绍了Mask R-CNN网络架构，它是基于Faster R-CNN改进而来，主要用于目标实例分割。文章详细阐述了其主要特点，包括强化的基础网络、ROIAlign层及二分类损失函数等。同时，还深入解析了ROIAlign层如何改善对齐问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一概述

Mske r-cnn是基于faster rcnn 提出来的一个网络架构，主要完成了目标个体的语义分割。论文的思路主要是对原有的faster rcnn进行了扩充，增加了一个分支对现有目标进行预测。
这里写图片描述

二主要特点

强化的基础网络，通过 ResNeXt-101+FPN 用作特征提取网络，达到 state-of-the-art 的效果。
1. ROIAlign解决对齐的问题。
2. Loss Function，二分类的分类函数，对像素进行分类。

三主要内容

对于roi pooling，经历了两个量化的过程：
第一个：从roi proposal到feature map的映射过程。方法是[x/16]，这里x是原始roi的坐标值，而方框代表四舍五入。
第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

这两种情况都会导致证输入和输出之间像素级别上的一一对应发生偏差（pixel-to-pixel alignment between network input and output）。因此作者设计了ROI Align layer。作者的ROI Align layer想法很简单，就是去掉ROI Pooling过程中所有的量化过程，包括从原图proposal到最后一层feature map映射，以及把feature map划分成m*m的bin过程中的量化。

3.1ROIAlign

ROIAlign是roi映射到feature map后，不再进行四舍五入。然后将候选区域分割成k x k个单元，在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

这里对上述步骤的第三点作一些说明：这个固定位置是指在每一个矩形单元（bin）中按照比例确定的相对位置。比如，如果采样点数是1，那么就是这个单元的中心点。如果采样点数是4，那么就是把这个单元平均分割成四个小方块以后它们分别的中心点。
这里写图片描述

3.2 loss function

这里写图片描述
其中，对于mask分支和其他的分类分支一样，使用全卷积网络输出，输出了k类的mask。注意这里mask的输出使用了sigmoid函数。最后可以通过与阈值0.5作比较输出二值mask。这样避免了类间的竞争，将分类的任务交给专业的classification分支。
而Lmask对于每一个像素使用二值的sigmoid交叉熵损失。