【Mask2Former】Masked-attention Mask Transformer for Universal Image Segmentation

zy_destiny

已于 2022-10-25 15:34:51 修改

阅读量3.5k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Transformer 文章标签： transformer 深度学习人工智能 mask2former

于 2022-10-18 17:24:42 首次发布

本文链接：https://blog.csdn.net/qq_38308388/article/details/123067475

Transformer 专栏收录该内容

12 篇文章

订阅专栏

Mask2Former是一种新的基于Transformer的网络结构，旨在统一处理全景分割、实例分割和语义分割任务。它通过Masked-attention机制优化了TransformerDecoder，加速了模型收敛并提高了对小目标的处理能力。网络由backbone、pixeldecoder和transformerdecoder组成，其中transformerdecoder中的maskedattention只关注前景区域，提高了分割精度。实验结果显示，Mask2Former在多个分割任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：http://arxiv.org/abs/2112.01527

代码地址：Mask2Former

1.背景

图像分割研究的是像素的分组问题。用于对像素进行分组的不同语义导致了不同类型的分割任务，例如全景分割、实例分割和语义分割。虽然这些任务仅在语义上有所不同，但是当前的方法为每个任务开发了专门的架构。基于逐像素分类的全卷积网络(FCNs) 用于语义分割，尽管该网络已经推进了每个单独的任务，但是它们缺乏推广到其他任务的灵活性。例如，基于FCN的体系结构在实例分割方面存在困难，导致了不同体系结构的演变。因此，本文提出的Masked-attention Mask Transformer (Mask2Former)网络结构能够在不同分割任务（全景分割、实例分割、语义分割）中均具有良好的表现。

2.Mask2Former网络结构

2.1整体结构

分类分支就是将原始图像逐像素划分成N个类别标签，mask分类能够通用以解决任何分割问题，困难在于为每个分割任务找到合适的表示。元机构是一种很好的表示方式，这种网络架构主要有3部分组成，分别是：

1.backbone：用来提取低层次特征

2.pixel decoder：将从backbone传进来的低分辨率的特征逐步上采样到高分辨率特征

3.transformer decoder：对图像特征进行操作以处理object queries。最终的二进制掩码预测就是通过每像素的object queries解码得到的。

MaskFormer是这种元架构的一个成功案例，如下图所示。 2.2Transformer decoder

我们提出Transformer decoder替换了标准的解码器，其主要操作是包含了“掩膜注意力”的操作，该操作通过将所有预测mask的前景区域进行交叉注意力限制来提取局部特征，而不是关注全局特征图。为了处理小目标，我们利用高分辨率的特征提出了一个有效的多尺度策略。它以循环方式将特征金字塔中的连续特征映射送入连续的变换器解码器层。

2.3Masked attention

Masked attention是主要的创新点之一，着重讲解下。

Masked attentio在DETR transformer Decoder中的cross-attention基础上进行改进的。有研究表明，DETR类的模型收敛速度慢的部分原因是cross-attention中的全局上下文需要经过较长的训练时间才能使得注意力每次集中在目标附近，即局部上下文。本文考虑到在cross-attention中使用局部上下文能够加速模型的收敛，因此采用masked attention模块替换了原来的cross-attention模块，即每次仅使用特征图的前景区域的特征更新query。

原始的cross-attention计算方式：

masked attention计算方式：

区别在于：

masked attention比cross-attention多了 $M_{l-1}$ ， $M_{l-1}$ 采用的是前一个transformer decoder层预测的mask，并使用阈值0.5进行截断得到的二值图。当某个像素的前一层被预测为背景，即 $M_{l-1}=0$ ,映射后： $M_{l-1}(x,y)=-\infty$ ，即经过softmax映射后，其该像素点的注意力便会下降为0。最终，便只有前景区域的像素点特征会影响query的更新。

2.4更换顺序

为了处理小目标，我们提出了一种利用来自像素解码器的高分辨率特征的有效方法，通过一次将多尺度特征的一个尺度反馈到一个变换器解码器层，其中金字塔多尺度特征分别为：原图的 1/32, 1/16 和 1/8。并且，我们交换了self attention和cross attention的顺序，使query特征可学习，并删除了dropout层。