SEEM-Segment Everything Everywhere All at Once（论文翻译）

最新推荐文章于 2025-08-22 13:41:20 发布

业余狙击手19

最新推荐文章于 2025-08-22 13:41:20 发布

阅读量713

点赞数 27

CC 4.0 BY-SA版权

分类专栏： # 大模型人工智能文章标签：人工智能计算机视觉算法

本文链接：https://blog.csdn.net/sxlsxl119/article/details/150486781

大模型同时被 3 个专栏收录

14 篇文章

订阅专栏

人工智能

7 篇文章

订阅专栏

图像分割算法

2 篇文章

订阅专栏

本文首发于微信公众号：人工智能与图像处理

SEEM-Segment Everything Everywhere All at Once（论文翻译） (qq.com)

Segment Everything Everywhere All at Once（SEEM）[NeurIPS 2023] 是一个创新的开源项目，旨在实现对图像和视频中的对象进行高效且精确的分割。该项目由UX-Decoder团队开发，支持多种提示类型，包括点、标记、框、涂鸦、图像片段、文本和音频等，用户可以通过这些提示轻松地对图像进行分割，并且可以组合使用多种提示类型‌。

一，SEEM：

摘要

在这项工作中，我们提出了 SEEM，这是一个可提示且交互式的模型，用于一次性分割图像中的所有内容，如图 1 所示。在 SEEM 中，我们提出了一种新颖的解码机制，能够针对所有类型的分割任务进行多样化提示，旨在构建一个行为类似于大语言模型（LLMs）的通用分割接口。更具体地说，SEEM 的设计基于四个期望的特性：

多功能性：我们引入一种新的视觉提示，以统一包括点、框、涂鸦和掩码在内的不同空间查询，并且这种提示能够进一步推广到不同的参考图像。
组合性：我们学习文本提示和视觉提示之间的联合视觉 - 语义空间，这有助于各种分割任务所需的两种提示类型的动态组合。
交互性：我们进一步将可学习的记忆提示纳入解码器，通过解码器到图像特征的掩码引导交叉注意力来保留分割历史。
语义感知性：我们使用文本编码器将文本查询和掩码标签编码到相同的语义空间中，以实现开放词汇分割。我们进行了全面的实证研究，以验证 SEEM 在各种分割任务中的有效性。值得注意的是，我们的单个 SEEM 模型在 9 个数据集上以最少 1/100 的监督，在交互式分割、通用分割、指代表达式分割和视频对象分割方面都取得了具有竞争力的性能。此外，SEEM 展示了对新提示或其组合的显著泛化能力，使其成为一个现成的通用图像分割接口。

1. 引言

图像分割可以说是计算机视觉中最重要但也最具挑战性的问题。在过去，我们见证了在广泛的分割任务中取得的显著进展，包括实例分割、语义分割和全景分割。最近，我们观察到在不同方面出现了向更灵活的分割模型发展的明显趋势：

From closed-set to open-vocabulary segmentation（从封闭集合到开放词汇分割：许多近期的工作提出利用对比学习方法或预训练的多模态基础模型（例如 CLIP），使分割模型能够更好地迁移到未见过的概念。

From generic to referring segmentation(从通用分割到指代分割)：除了在给定预定概念集的情况下对图像进行全面分割的通用分割外，基于语言的指代表达式分割提供了一种用户友好的方式来分割由任意文本短语指定的特定区域。
From one-shot to interactive segmentation（从one-shot 到交互式分割）：在实践中，分割模型不一定能在一轮中生成令人满意的mask。因此，人们也在研究如何通过人与模型之间的密切交互逐步改进分割结果。

尽管在设计更强大和可行的分割模型方面做出了上述努力，但我们仍然缺乏一个通用的分割接口，该接口能够容纳各种类型的人类提示，并处理在各个单独工作中所研究的不同分割任务。相比之下，大语言模型（LLMs）已经成为语言任务的通用交互接口，从早期的模型如 GPT - 3 和 T5，到通过高级提示和思维链增强的对话代理。在这项工作中，我们致力于为一次性分割图像中的所有内容构建一个通用接口。

在这个接口上，我们的目标是以可提示的方式用单个模型统一所有分割任务。为了实现这一目标，我们在掩码解码器中提出了一种新的提示方案，该方案具有四个重要特性：多功能性、组合性、交互性和语义感知性。具体而言，我们提议将点、掩码、文本、框，甚至来自另一图像的参考区域编码到同一联合视觉 - 语义空间中的提示里。这样，我们的模型可以处理任何输入提示的组合，从而实现强大的组合性。为了实现交互性，我们进一步引入记忆提示，用于浓缩先前的分割信息，随后与其他提示进行通信。至于语义感知性，我们的模型可以为任何输出分割提供开放集语义标签。

通过提出的提示方案，我们构建了一个名为 SEEM 的分割所有内容的模型，它由一个简单的 Transformer 编码器 - 解码器架构和一个额外的文本编码器组成。在 SEEM 中，解码过程模拟生成式大语言模型，但具有多模态输入 - 多模态输出接口。图像编码器和文本编码器用作提示编码器，对所有类型的查询进行编码，然后将其输入解码器。

具体来说，我们通过从图像编码器中池化相应的视觉特征，将所有空间查询（即点、框、涂鸦和掩码）编码为视觉提示，并使用文本编码器将文本查询转换为文本提示。通过在各种分割任务上进行训练，我们的模型学会处理各种提示，对齐视觉和文本提示，并通过它们之间的交叉注意力促进它们的协同作用。结果，我们的预训练单模型在所有分割任务中都获得了竞争性能。

由于所有 5 种不同类型的提示都映射到联合视觉 - 语义空间，我们可以可行地组合提示以解决歧义，从而获得更好的分割结果，并实现对未见用户提示的零样本适应。此外，我们的模型可以立即推广到使用示例图像片段作为提示的情况以及零样本视频对象分割。除了强大的泛化能力外，与 SimpleClick 等同类模型相比，SEEM 在交互式分割方面也更高效。由于我们将提示作为解码器的输入，在与人类进行多轮交互时，我们的模型只需在开始时运行一次特征提取器，并在每轮中进行轻量级解码。

最后，我们构建了一个具有单个预训练模型的分割接口，该模型可以分割具有语义的每个对象（所有内容），覆盖图像中的每个像素（所有地方），并支持所有可能的提示组合（一次性）。总之，我们的贡献有三个方面：

我们设计了一种新的提示方案，能够将各种用户意图编码为联合视觉 - 语义空间中的提示，为各种分割任务提供强大的灵活性，并具备对未见提示或其组合的泛化能力。

我们构建了 SEEM，这是一个通用且交互式的分割接口，它将新设计的提示机制集成到一个轻量级解码器中，用于所有分割任务，从而产生一个具有多功能性、组合性、交互性和语义感知性的模型。

我们进行了广泛的实验和可视化，以表明我们的模型在许多分割任务上具有强大的性能，包括开放词汇通用分割、交互式分割、指代表达式分割以及具有组合提示的分割任务。

注释：指代分割（Referring Segmentation）是计算机视觉领域中的一个任务，它要求模型根据给定的语言描述（通常是自然语言句子）来识别和分割图像中的特定对象或对象的部分。这个任务涉及到两个主要的挑战：理解和执行。1. **理解**：模型需要理解自然语言描述中的指令，这可能包括识别特定的对象、动作或属性。例如，如果描述是“请找到桌子上的红色杯子”，模型需要理解“桌子上的”、“红色”和“杯子”这些关键词。2. **执行**：模型需要在图像中定位并分割出与描述相匹配的对象或对象部分。在上述例子中，模型需要在图像中找到所有可能的杯子，然后确定哪个是红色的，最后生成一个分割掩模来精确地表示这个红色杯子。指代分割通常需要模型具备较强的视觉和语言理解能力，因为它不仅需要模型能够处理视觉信息，还需要能够处理和解释自然语言。这个任务在机器人视觉、自动驾驶、图像检索和增强现实等领域有着广泛的应用前景，因为这些领域中的系统经常需要根据用户的自然语言指令来执行任务。举例：假设你正在使用一个智能家居助手，你给它一个指令：“请把书架上那本蓝色的书拿给我。” 这个指令要求智能家居助手执行指代分割任务。以下是这个任务的执行步骤：1. **理解指令**：智能家居助手首先需要理解你的指令，识别出关键信息，如“书架”、“蓝色”和“书”。2. **视觉识别**：助手使用其视觉系统扫描房间，识别出书架和书架上的书籍。3. **指代解析**：助手需要解析“那本蓝色的书”这个指代表达，确定它指的是书架上的哪一本书。这可能涉及到颜色识别（蓝色），以及可能的形状、大小或位置信息。4. **分割执行**：一旦确定了目标书籍，助手需要生成一个分割掩模，精确地标识出这本书在视觉场景中的位置。这个掩模将用于指导机器人手臂去抓取正确的书籍。5. **动作执行**：最后，智能家居助手的机械手臂会根据分割掩模移动到正确的位置，抓取那本蓝色的书，并将其递给你。

2 相关工作

交互式分割：交互式分割是通过交互获取用户输入来分割对象的任务。这是一个长期存在的问题，并取得了相当大的进展。一般来说，交互类型可以有多种形式，如点击、框、多边形和涂鸦，其中基于点击的交互模型最为流行。与我们的工作同时，SAM 提出了一种可提示的分割模型，在 1100 万张图像和 11 亿个掩码上进行了训练。它将用户交互作为一般分割的提示。尽管 SAM 展示了强大的零样本性能，但它生成的分割没有语义意义。此外，其提示类型仅限于点、框和文本，而我们的模型还可以将来自另一图像的参考区域作为提示。

通用分割：视觉概念的分割一直是计算机视觉领域的一个持续挑战，大量的文献证明了这一点。通用分割技术包括几个子任务，包括实例分割、语义分割和全景分割，每个子任务侧重于不同的语义级别。例如，语义分割旨在根据图像中每个像素对应的语义类别对其进行识别和标记。另一方面，实例分割涉及将属于同一语义类别的像素分组为单独的对象实例。最近，基于 Transformer 架构的 Detection Transformer（DETR）在分割任务中取得了重大进展。然而，这些方法无法识别训练集中不存在的对象，这将模型限制在有限的词汇量内。

统一视觉模型：统一视觉模型最近因其在泛化到各种任务和灵活性方面的优势而备受关注。这些模型可以处理多个视觉任务或数据分布。其中一些模型通过仅用一个模型一起训练多个任务，从而可以在不对每个目标任务进行微调的情况下处理所有训练任务。另一方面，SAM 和 SegGPT 提出了训练策略，使它们的模型能够以零样本方式处理新任务和数据分布。第二种方法更有利，因为在训练期间无需解决任务之间的冲突。

3 方法

3.1 方法设计

SEEM 采用通用编码器 - 解码器架构，但也在查询和提示之间采用了复杂的交互方案，如图 2（a）所示。给定输入图像，首先使用图像编码器提取图像特征。然后，SEEM - 解码器基于查询输出（掩码嵌入）和（类别嵌入）预测掩码和语义概念，它们与文本、视觉和记忆提示相互作用：

其中是可学习的查询，、、分别代表文本提示、视觉提示和记忆提示。在训练期间，会针对通用、指代表达式和交互式分割进行复制，如图 3 所示。相应的提示通过自注意力与它们的查询相互作用。可学习的查询可以在推理时自由地与所有提示相互作用，从而实现零样本组合。我们的设计受到 X - Decoder 成功实践的启发。我们在等式（1）中突出显示了差异（用红色标记），这使得图像分割的通用模型具有以下特性：

多功能性：在 SEEM 中，我们引入视觉提示来处理所有非文本输入，如点、框、涂鸦和来自另一图像的参考区域。当单独的文本提示无法识别正确的片段时，这些非文本查询有助于消除用户意图的歧义。对于交互式分割，以前的工作要么将空间查询转换为掩码并将其输入图像主干，要么为每种输入类型（点、框）使用不同的提示编码器。第一种方法在应用中可能过于繁重，因为每次交互都需要图像通过特征提取器。第二种方法难以推广到未见提示。为了解决这些限制，我们提出了一种视觉采样器（图 2（a）），将所有类型的非文本查询转换为位于同一视觉嵌入空间中的视觉提示：

其中

是从目标图像（即）或参考图像中提取的特征图， {点，框，涂鸦，多边形} 是用户指定的采样位置。我们首先通过点采样从图像特征中池化相应的区域。对于所有视觉提示，我们从提示所指定的区域中均匀内插最多 512 个点特征向量。我们所提出方法的一个显著优点是，视觉提示与文本提示自然地高度匹配，因为我们的模型通过全景分割和指称分割不断学习一个共同的视觉语义空间。

组合性：在实践中，用户可能使用不同的提示类型来表达他们的意图。因此，提示的组合方法对于实际应用至关重要。然而，我们在模型训练中面临两个问题。首先，训练数据通常只涵盖单一类型的交互（例如，无、文本、视觉）。其次，尽管我们使用视觉提示统一所有非文本提示并将它们与文本提示对齐，但它们本质上仍然不同。为了缓解这个问题，我们建议将不同类型的提示与不同的输出进行匹配。考虑到视觉提示来自图像特征，而文本提示来自文本编码器，我们通过将它们分别与掩码嵌入或类别嵌入匹配来选择视觉和文本提示的匹配输出索引：

其中

是真实掩码和预测掩码之间的交并比。提出的单独匹配方法在所有提示上都优于仅与或匹配的方法。训练后，我们的模型熟悉所有提示类型，并支持各种组合，例如无提示、一种提示类型或使用相同模型和权重的视觉和文本提示。特别是，视觉和文本提示可以简单地连接并输入到 SEEM - 解码器中，即使它从未以这种方式进行过训练。

交互性：交互式分割通常不能一蹴而就，需要多次交互来细化，类似于 ChatGPT 这样的对话。在 SEEM 中，我们提出一种新的提示类型，称为记忆提示，并使用它们将前一次迭代的掩码知识传递到当前迭代。与以前使用网络编码前一个掩码的工作不同，我们不引入额外的模块，而只是使用一些记忆提示。这些记忆提示通过使用掩码引导的交叉注意力层编码历史信息：

其中

是前一个掩码，Z是图像特征图。这样，交叉注意力仅在由前一个掩码指定的区域内生效。更新后的记忆提示

然后通过自注意力与其他提示相互作用，为当前轮次传递历史信息。

语义感知性:与之前诸如 SimpleClick 等类别无关的交互式分割工作以及同期的 SAM 工作不同，我们的模型能够以零样本方式为各种提示组合的掩码生成语义标签，因为我们的视觉提示特征在联合视觉 - 语义空间中与文本特征对齐。如图 3 所示，语义标签直接使用（视觉查询的输出）和文本嵌入来计算。尽管我们在交互式分割训练中没有使用任何语义标签，但得益于联合视觉 - 语义空间，计算出的对数几率能够很好地对齐。

3.2 Model Pipeline和损失函数

我们用算法 1 中的类似 PyTorch 风格的伪代码总结了所提出方法的训练和评估管道。SEEM 通过全景分割、指代表达式分割和交互式分割的损失的线性组合进行训练：

其中 α = 2，β = γ = 5，a = 0.2，b = c = 2，CE、BCE 和 DICE 分别表示交叉熵、二元交叉熵和骰子损失。

4 实验

数据集和设置：SEEM 在三个任务上进行训练：全景分割、指代表达式分割和交互式分割。全景分割和交互式分割在带有全景分割注释的 COCO2017 数据集上进行训练。按照 [11] 中的做法，我们排除了 Ref - COCOg 的验证集，总共得到 10.7 万张分割图像。对于指代表达式分割，我们使用 Ref - COCO、Ref - COCOg 和 Ref - COCO + 对 COCO 图像注释的组合。我们评估通用分割（实例 / 全景 / 语义）、指代表达式分割和交互式分割。

实现细节和评估指标：我们的模型框架除了解码器之外遵循 X-Decoder。也就是说，我们有一个视觉主干、一个语言主干、一个编码器和 SEEM - 解码器。对于视觉主干，我们使用 FocalT、DaViT - d3（B）和 DaViT - d5（L）。对于语言编码器，我们采用 UniCL 或 Florence 文本编码器。对于所有分割任务，我们使用标准评估指标：全景分割使用 PQ（全景质量），实例分割使用 AP（平均精度），语义分割使用 mIoU（平均交并比）。对于交互式分割，我们遵循之前的工作，通过自动比较预测分割与真实分割来模拟用户点击。在图像上点击一次生成预测掩码后，下一次点击放置在分割误差最大的区域中心。我们使用点击次数（NoC）指标来评估交互式分割性能，它衡量达到一定交并比（IoU）（即 85% 和 90%，分别表示为 NoC@85 和 NoC@90）所需的点击次数。我们还改变最大点击次数，用 K - NoC@90（K = 5、10、20）表示，并评估单次点击的平均 IoU（表示为 1 - IoU），以研究不同约束条件下的性能。在补充材料中展示了更多以笔画、涂鸦、多边形和框为提示的定性评估。

4.1 Main Results

通用分割：通过在所有分割任务上预训练的一组参数，我们能够评估其在通用分割数据集上的性能。如表 1 所示，SEEM 在全景、实例和语义分割性能方面与强大的基线相比保持竞争力。与 UViM、Pix2Seqv2 等通用模型，特别是最近的 Painter 和 SegGPT 模型相比，我们的方法在通用分割方面显著优于这些方法，在全景分割指标上领先约 10 个点。

指代表达式分割：如表 1 所示，与其他指代表达式分割和通用模型相比，SEEM 取得了有竞争力的性能。值得注意的是，通过添加视觉组合提示，小型模型的指代表达式分割性能大幅提高，cIoU 提高了10.5，mIoU 提高了6.0，AP50提高了9.3个点。并且这种差距在基础模型和大型模型中也得以保持。具体来说，这个数值是通过类嵌入（输出 - Q - 文本）计算得出的。如表 5 所示，当使用掩码嵌入（输出 - Q - 视觉）计算时，差距甚至更大。此外，我们对直接组合视觉和文本掩码输出概率的原始组合（集成）进行了基准测试，如表 5 第 2 行所示。

交互式分割：如表 1 所示，我们的方法取得了与专业模型（例如 RITM、SimpleClick）相当的性能，并且比 SAM（B）表现更好，而 SAM（B）所使用的分割数据是我们的 100 倍。值得注意的是，与现有的交互式模型不同，SEEM 是首个不仅支持经典分割任务，还支持包括文本、点、涂鸦、框和图像在内的多种用户输入类型的界面，如表 2 和表 5 所示，它具备很强的组合能力。

交互式分割的用户输入类型：在表 2 中，我们将 SEEM 的 1 - IoU 与其他强大的基准模型（SimpleClick 和 SAM）在三个数据集上使用 5 种常见提示类型进行了比较。1 - IoU 表示所有图像单次点击的平均交并比。提示类型包括点、笔画、涂鸦和框。结果表明，在所有三个数据集上，我们的 SEEM 在点击次数极其有限的情况下取得了最佳性能。
视频对象分割：无需任何修改，我们的模型能够通过视觉提示以零样本的方式进行（交互式）视频对象分割（通过将当前图像的视觉提示替换为来自另一图像的视觉提示）。如表 3 所示，在没有对 DAVIS/VOS 数据集进行任何观测的情况下，我们的方法能够在 DAVIS17 数据集上以零样本方式取得与完全监督方法相近的性能。同时，我们的模型能够在 DAVIS16 - Interactive 数据集上进行交互式视频对象分割，并且仅通过对首帧进行一次点击就能取得与监督基线相当的性能。

4.2 消融实验

我们对所有训练分割任务和零样本视频对象分割进行了消融研究，剖析了模型的每个组件。结果如表 4 所示。

LVIS 掩码注释将提高交互式分割结果。在训练期间，我们用与 LVIS 掩码重叠 IoU 大于 0.7 的掩码替换 COCO 掩码。这将提高交互式分割的性能，在 NoC0.9 和 NoC0.85 上分别有 0.3 和 0.2 个点的增益。

从头开始训练只会损害指代表达式分割性能。我们比较了使用 X - Decoder 预训练检查点训练的 SEEM 模型或使用 UniCL 或 Florence 视觉和语言主干初始化的检查点（+ 从头开始）。这表明从头开始训练将略微提高交互式分割性能，但会损害指代表达式分割性能。

增加交互式训练迭代次数确实有帮助。如表 4 所示，将训练迭代次数（前 N - 1 次迭代无梯度）从 1 增加到 5 将使交互式分割性能在 NoC0.9 上从 5.41 逐渐提高到 4.59。由于计算成本随着点击次数的增加而增加，我们在主要论文结果中使用了 3 次迭代。

4.3 定性结果

我们进一步对 SEEM 进行了定性评估。基于所提出的提示方案和解码器设计，使用同一组参数，SEEM 能够支持多种视觉输入类型。

视觉提示交互式分割：在图 4 中，我们展示了使用 SEEM 以交互式方式分割对象的可视化效果。用户只需点击或绘制涂鸦就能分割出感兴趣的对象。借助这些提示，SEEM 能够同时为对象生成掩码和语义标签。需要注意的是，我们的模型是开放词汇的，这使其在给定候选词汇（例如图 4 中的猎豹和蝴蝶）时能够对未见过的类别进行标注。当没有给定词汇时，SEEM 能够以类别无关的方式进行分割。

文本指代表达式分割：我们在图 5 中展示了文本指代表达式分割的可视化结果。这些结果表明，我们的模型对开放词汇概念和属性具备语义感知能力，能够理解语言。此外，SEEM 能够泛化到诸如卡通、电影以及游戏等未见过的场景中。

视觉指代表达式分割：在图 6 中，我们展示了 SEEM 在以来自另一图像的参考区域作为提示时的分割结果。只需在一张参考图像上点击或绘制涂鸦，SEEM 就能将其作为输入，并在其他图像上对具有相似语义的对象进行分割。值得注意的是，这种视觉指代表达式分割对其他领域的图像具有强大的泛化能力。例如，通过参照森林中的大象，同一类别的另一个对象在诸如卡通、毛绒玩具和草原等截然不同的场景下也能被很好地分割出来。

视频对象分割：在图 7 中，我们进一步展示了 SEEM 以零样本方式在视频对象分割任务上的指代表达式分割能力。通过用涂鸦参照首帧中的对象，SEEM 能够精确地分割后续帧中相应的对象，即便后续对象的外观因模糊或剧烈变形而发生变化时亦是如此。

5 总结

我们提出了 SEEM，它可以一次性（所有可能的提示组合）分割所有内容（所有语义）、所有地方（所有像素）。除了执行通用的开放词汇分割外，SEEM 还可以交互式地从用户那里获取不同类型的视觉提示，包括点击、框、多边形、涂鸦、文本以及来自另一图像的参考区域。这些视觉提示通过提示编码器映射到联合视觉 - 语义空间，这使得我们的模型对各种提示具有通用性，并且可以灵活组合不同的提示。大量实验表明，我们的模型在几个开放词汇和交互式分割基准上取得了有竞争力的性能。进一步的研究揭示了我们的模型在根据不同用户意图准确分割图像方面的强大泛化能力。我们希望我们的工作将成为迈向图像分割及其他领域通用和交互式接口的基石。

二，相关地址：

论文地址：https://arxiv.org/abs/2304.06718

代码地址：https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once