这篇文章的核心内容是介绍了一个名为 X-SAM(eXtended Segment Anything to Any Segmentation)的新型多模态大型语言模型(MLLM),它能够将“分割任何事物”的概念扩展到“任何分割”的任务中,实现对多种图像分割任务的统一处理。以下是文章的主要研究内容和贡献的总结:
1. 研究背景与动机
-
大型语言模型(LLMs)的局限性:尽管 LLMs 在知识表示方面表现出色,但在像素级视觉理解任务(如图像分割)上存在不足。
-
Segment Anything Model(SAM)的局限性:SAM 在视觉提示驱动的图像分割方面取得了进展,但在多掩码预测和特定类别分割任务中表现有限,且无法将所有分割任务整合到一个统一的模型架构中。
2. X-SAM 的提出
-
目标:开发一个能够处理多种图像分割任务的统一框架,将分割范式从“分割任何事物”扩展到“任何分割”。
-
技术挑战:
-
任务公式化:将 SAM 转变为具有跨任务适用性的多功能分割架构。
-
模态增强:增强 LLMs 的多模态输入处理能力。
-
统一框架:开发一种连贯的方法,以有效促进在多样化任务中实现全面的分割应用。
-
3. 方法论
-
统一输入格式:设计了一个多功能的输入格式,支持文本查询和视觉查询,将多种分割任务整合到一个模型中。
-
新任务:视觉引导(VGD)分割:通过交互式视觉提示分割图像中的所有实例对象,赋予 MLLMs 视觉引导的像素级解释能力。
-
模型架构:
-
双编码器:图像编码器和分割编码器,分别提取全局图像特征和细粒度图像特征。
-
双投影器:将图像特征和分割特征投影到语言嵌入空间,增强 LLM 的理解能力。
-
分割连接器:将分割编码器的特征与解码器连接,提供多尺度特征。
-
分割解码器:生成适用于多种分割任务的分割掩码。
-
-
多阶段训练策略:
-
分割器微调:在 COCO-Panoptic 数据集上微调分割器。
-
对齐预训练:在 LLaVA-558K 数据集上对齐视觉和语言嵌入。
-
混合微调:在多个数据集上联合训练,支持多种分割和对话任务。
-
4. 实验与结果
-
数据集:在多个数据集上进行训练和评估,包括 COCO-Panoptic、LLaVA-558K、COCO-VGD 等。
-
任务:涵盖了通用分割、开放词汇表分割、指代分割、推理分割、GCG 分割、交互式分割和 VGD 分割。
-
性能:
-
在所有图像分割基准测试中实现了最先进的性能。
-
在指代分割、GCG 分割和 VGD 分割中显著优于现有方法。
-
在图像对话任务中也表现出色,证明了其多模态能力。
-
5. 消融研究
-
混合微调:证明了混合微调在提升多任务性能方面的有效性。
-
双编码器:展示了双编码器在 VGD 分割和开放词汇表分割中的优势。
-
多阶段训练:验证了多阶段训练策略在提升分割和理解能力方面的有效性。
-
分割器架构:分析了不同分割器架构对性能的影响。
6. 限制与未来工作
-
限制:联合训练对某些分割数据集的性能有负面影响,模型在所有任务上的性能仍有提升空间。
-
未来方向:将 X-SAM 与视频分割模型(如 SAM2)整合,扩展到视频领域;进一步扩大模型规模和训练数据量。
X-SAM 通过其创新的架构和多阶段训练策略,成功地将多种图像分割任务统一到一个模型中,显著提升了多模态图像分割的性能,为未来的研究和应用提供了新的方向。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方线上Demo地址在这里, 如下所示:
项目地址在这里,如下所示:
摘要
大型语言模型(LLMs)在广泛的知识表示方面表现出强大的能力,但它们在像素级感知理解方面存在固有缺陷。尽管“分割任何事物模型”(SAM)在视觉提示驱动的图像分割方面取得了显著进展,但在多掩码预测和特定类别分割任务中表现出明显的局限性,并且无法在统一的模型架构内整合所有分割任务。为了解决这些局限性,我们提出了 X-SAM,这是一个简化的多模态大型语言模型(MLLM)框架,将分割范式从“分割任何事物”扩展到“任何分割”。具体来说,我们引入了一个新颖的统一框架,使 MLLMs 能够实现更高级别的像素级感知理解。此外,我们提出了一个新的分割任务,称为视觉引导(VGD)分割,它通过交互式视觉提示分割图像中的所有实例对象,并赋予 MLLMs 视觉引导的像素级解释能力。为了在多样化的数据源上进行有效训练,我们提出了一个统一的训练策略,支持在多个数据集上进行联合训练。实验结果表明,X-SAM 在广泛的图像分割基准测试中实现了最先进的性能,突出了其在多模态、像素级视觉理解方面的效率。
1 引言
多模态大型语言模型(MLLMs)随着大型语言模型(LLMs)的快速发展以及多模态预训练方法的进展而取得了显著进展。这些模型在多种应用中表现出色,包括图像描述生成、视觉问答(VQA)和视觉编辑等。然而,开发真正通用模型的一个重大障碍仍然存在:当代 MLLMs 仅限于生成纯文本输出。这一限制在直接处理需要像素级视觉数据理解的任务(如图像分割)时提出了相当大的挑战,而图像分割是计算机视觉领域中最重要的任务之一。
“分割任何事物模型”(SAM)是一个基础性的分割模型,它在生成密集分割掩码方面表现出色,并激发了多种分割任务的发展,例如高质量分割、匹配任何事物和跟踪任何事物等。然而,SAM 的架构本质上受到其对视觉提示的依赖的限制,这显著限制了其在多种图像分割任务中的直接适用性,包括通用(语义、实例、全景)分割、指代分割和开放词汇表(OV)分割等。实现一个能够处理各种图像分割任务的统一框架仍然是一个挑战。
在本工作中,我们引入了 X-SAM,一个创新的框架,它将多种图像分割任务统一起来,将分割范式从“分割任何事物”扩展到“任何分割”。为了实现这一目标,我们的方法解决了三个关键的技术挑战:(1)任务公式化:将 SAM 转变为具有跨任务适用性的多功能分割架构;(2)模态增强:增强 LLMs 的多模态输入处理能力;(3)统一框架:开发一种连贯的方法,以有效促进在多样化任务中实现全面的分割应用。
首先,我们开发了一个统一的分割 MLLM 架构,该架构包含一个统一的掩码解码器,能够生成适用于通用图像分割任务的分割掩码。其次,我们将 MLLMs 的多模态能力扩展到不仅可以处理文本查询,还可以处理视觉查询。具体来说,我们引入了一个称为视觉引导(VGD)分割的新任务,它通过交互式视觉提示分割图像中的所有实例对象。此外,我们提出了一个统一的输入格式和训练方法,将分割任务重新制定为统一的框架,从而优化了 MLLMs 对多样化图像分割任务的适应性。
如图 1 和表 1 所示,我们展示了 X-SAM 的全面能力,并与其他方法进行了比较。我们提出的框架在处理基于文本查询的任务(如通用分割和指代分割)方面表现出色,同时也能处理基于视觉查询的任务,如交互式分割和我们新颖的 VGD 分割,这些任务在单图像和跨图像环境中都能有效运行。此外,X-SAM 利用了 LLMs 的推理和生成能力,从而实现了高级推理分割和基于地面的对话生成(GCG)分割。X-SAM 在多种数据集上进行了联合训练。我们在超过二十个分割数据集上进行了全面评估,涵盖了七种不同的图像分割任务,甚至包括图像转换任务。X-SAM 在所有图像分割基准测试中都实现了最先进的性能,并为统一像素级图像理解建立了一个强大的新基准。总结来说,我们的贡献如下:
-
我们引入了 X-SAM,一个新颖的统一框架,将分割范式从“分割任何事物”扩展到“任何分割”。我们的方法将多种图像分割任务公式化为标准化的分割格式。
-
我们提出了一个新的图像分割基准测试,视觉引导(VGD)分割,它为 MLLMs 提供视觉引导提示,以分割图像中的实例对象。该基准测试引入了用户友好的输入,以定位分割对象并引导 MLLMs 输出分割掩码。
-
我们提出了一个统一的多阶段训练策略,用于在多样化数据集上联合训练 X-SAM,并在超过二十个图像分割基准测试上进行了广泛评估,实现了所有基准测试中的最先进的性能。这为统一像素级感知理解建立了一个新的强大基准。
2 相关工作
多模态大型语言模型。多模态学习从早期专注于任务特定融合和特征提取的模型发展而来,到利用大型语言模型(LLMs)进行泛化、指令调整的多任务基准测试。LLaVA 引入了视觉特征标记化,激发了视觉表示、专门的视觉扩展和语言引导分割的进展。然而,大多数进展仍然是任务特定的。据我们所知,我们是第一个成功实现综合方法的人,为图像分割开辟了新的方向。
多模态引导分割。最近的研究探索了视觉初始化方法,包括可学习的标记、掩码视觉建模和视觉提示编码器。SAM 及其扩展引入了视觉引导信号到分割模型中,极大地提高了性能。交互式分割进一步增强了 MLLMs 的用户引导分割能力。然而,现有方法无法自由地将引导输入作为文本输入用于分割。为了解决这一问题,我们提出了视觉引导(VGD)分割,以实现更多样化的多模态引导分割。
统一分割模型。视觉变换器推动了通用分割的发展,最近的研究开发了端到端的掩码分类框架,这些框架在各种应用中超越了早期模型。研究扩展到了开放世界和开放词汇表分割,以及针对多任务的统一架构。然而,大多数方法仅专注于视觉分割,缺乏 MLLMs 中的交互式文本和视觉提示。为了解决这一问题,我们将 SAM 与 MLLMs 结合起来,将 SAM 从“分割任何事物”扩展到“任何分割”,并引入了一个适用于所有图像分割任务的统一框架,为多任务图像分割建立了新的强大基准。
3 方法
为了实现统一图像分割,我们提出了 X-SAM,这是一个新颖的多模态分割 MLLM。我们设计了一个多功能的输入格式和统一框架,将多种分割任务整合到一个模型中。此外,我们引入了一种创新的训练策略,使 SAM 能够处理任何分割任务。以下部分详细介绍了我们的方法。
3.1 公式化
开发统一分割模型面临着来自分割任务的多样性和输入格式变化的挑战。为了解决这些问题,我们引入了一个多功能的输入格式,为 X-SAM 的统一框架奠定了基础。我们将输入格式分为两大类:文本查询输入和视觉查询输入。文本查询输入仅由用户请求的语言提示组成,而视觉查询输入则整合了用户提供的语言提示和视觉提示。
文本查询输入。大多数现有的图像分割任务可以概念化为文本查询输入,包括通用分割、指代分割、开放词汇表(OV)分割、GCG 分割和推理分割。文本查询输入封装了用户的请求以及要分割的特定类别或对象,这可能嵌入在用户的提示中,或者由大型语言模型(LLM)生成。为了便于 GCG 分割任务,我们受到 GLaMM 的启发,在分词器中引入了两个特殊短语标记 <p>,分别表示短语的开始和结束。对于通用分割中的每个类别、指代分割中的短语或推理分割中的句子,格式被标准化为“<p>”。具体来说,<p> 标记不仅被编码在输入标记中,还被生成在输出标记中,以确保不同任务之间的一致性。此外,对于输出,我们引入了一个特殊的 <SEG>
视觉查询输入。除了文本查询输入外,一些任务需要视觉查询输入,例如交互式分割和我们在本文中提出的视觉引导分割。与文本查询输入不同,视觉查询输入整合了用户提供的视觉提示,可以是点、涂鸦、框或掩码的形式。为了表示视觉提示,我们在输入格式中使用了一个专用的 <region><p><region>”,分割输出同样由 <SEG><region>
3.2 架构
在本节中,我们提出了 X-SAM,一个适用于任何分割任务的统一分割 MLLM。如图 2 所示,它包括双编码器、双投影器、一个语言模型、一个分割连接器和一个分割解码器。
分割连接器。对于图像分割任务,细粒度的多尺度特征对于分割解码器准确预测分割掩码至关重要。SAM 中分割编码器的输出是单尺度的(1/16),空间分辨率较低。为了获得多尺度特征,我们设计了一个分割连接器 gc,以连接分割编码器和解码器。如图 3 所示,我们使用像素洗牌(Chen et al. 2024)进行 patch-merge,将编码器中的最后一个特征的空间尺寸减小到更小的尺度(1/32)。我们还使用像素洗牌进行 patch-expand,将最后一个特征的空间尺寸增加到更大的尺度(1/8),从而为分割解码器提供多尺度特征。
3.3 训练
为了在多样化的图像分割任务上取得更好的性能,我们提出了一个新的多阶段训练策略。该训练策略包括三个阶段:分割器微调、对齐预训练和混合微调。
4 实验
4.1 实验设置
数据集和任务。对于分割器微调,我们在 COCO-Panoptic 数据集上进行训练。对于对齐预训练,我们使用 LLaVA-558K 数据集。对于端到端混合微调,我们将一个图像对话数据集和五种类型的图像分割数据集纳入训练过程。为了在这些多样化数据集之间平衡训练数据,我们将训练周期设置为 1,并使用数据集平衡重采样来调整不同数据集的重采样率。经过训练后,X-SAM 能够执行多种任务,包括图像对话、通用、指代、推理、GCG、交互式和 VGD 分割。此外,X-SAM 支持开放词汇表(OV)(OV-语义、OV-实例、OV-全景)分割,使其能够分割输入提示中定义的所有对象,即使这些对象从未见过。注意,COCO-VGD 是我们提出的 VGD 分割数据集,它是基于 COCO2017 数据集构建的。数据集的详细信息在附录 A.1 中呈现。
评估指标。我们进行了广泛的实验,以评估 X-SAM 的性能。对于通用分割和开放词汇表分割,我们使用 PQ、mIoU 和 mAP 作为全景、语义和实例分割的主要指标。对于指代分割和推理分割,我们采用 cIoU 和 gIoU 作为指标,遵循(Zhang et al. 2024d)。对于 GCG 分割,我们使用 M、C、AP50 和 mIoU 作为指标,遵循(Rasheed et al. 2024)。对于交互式分割,我们使用 mIoU 和 cIoU,同样遵循(Zhang et al. 2024d)。对于 VGD 分割,我们使用 AP 和 AP50。对于图像对话,我们采用 MLLM 基准测试中的常见分数作为主要指标,遵循(Liu et al.)。
实现细节。我们采用 XTuner 代码库进行训练和评估。在分割器微调期间,我们训练所有参数,将批量大小设置为 64,并使用 1e-5 的学习率用于 SAM 编码器,其他参数使用 1e-4 的学习率。训练周期数设置为 36。对于对齐预训练,我们仅训练双投影器参数,批量大小为 256,学习率为 1e-3,训练周期为 1。对于端到端混合微调,我们训练所有参数,批量大小为 64,双编码器的学习率为 4e-6,其他参数的学习率为 4e-5,训练周期为 1。所有训练都在 16 个 A100 GPU 上进行。对于图像对话评估,我们使用 VLMEvalKit 代码库来评估 MLLM 基准测试的性能。对于分割任务评估,我们遵循相应论文和代码库中的设置。更多实现细节在附录中提供。
4.2 主要结果
我们在七种分割任务上进行了广泛的评估,包括通用、开放词汇表、指代、推理、GCG、交互式和 VGD 分割。
总体而言。在表 2 中,我们将 X-SAM 与当前的分割特定模型和 MLLMs 进行了比较。X-SAM 展示了最全面的能力。它在通用分割上实现了与最先进的性能相当的结果,并在其他基准测试中取得了最佳性能,仅使用一个模型。X-SAM 为图像分割基准测试设定了新的最先进记录。每个任务的详细结果在下文中讨论。
指代分割。我们在 RefCOCO、RefCOCO+ 和 RefCOCOg 上评估了 X-SAM,结果如表 3 所示。X-SAM 在 RefCOCO、RefCOCO+ 和 RefCOCOg 的验证集上分别比 PSALM(Zhang et al. 2024d)高出 1.5%、5.1% 和 10.0% 的 cIoU。与 Sa2VA-8B(Yuan et al. 2025)相比,X-SAM 以更小的模型尺寸取得了更好的结果。它在 RefCOCO、RefCOCO+ 和 RefCOCOg 上分别提高了 3.5%、1.8% 和 5.1% 的 cIoU。
GCG 分割。基于图像的对话生成需要详细的图像和像素级理解,要求 MLLMs 将描述的对象与其分割掩码联系起来。如表 4 所示,与之前的方法相比,X-SAM 取得了显著的性能提升,并在 Val 和 Test 集上都获得了最佳结果。在图像级理解方面,X-SAM 在 Val 集上比 GLaMM(Rasheed et al. 2024)高出 0.2% 的 METEOR 和 3.2% 的 CIDEr,在 Test 集上分别高出 0.5% 的 METEOR 和 4.8% 的 CIDEr。在像素级理解方面,X-SAM 在 Val 集上比 OMG-LLaVA(Zhang et al. 2024c)高出 3.3% 的 AP 和 3.9% 的 mIoU,在 Test 集上分别高出 4.3% 的 AP 和 4.3% 的 mIoU。
VGD 分割。视觉引导分割需要理解视觉模态,并分割所有相关的实例。表 5 展示了 VGD 分割的结果。由于 VGD 分割是我们新提出的一个任务,我们按照 X-SAM 的设置对 PSALM(Zhang et al. 2024d)进行了评估。X-SAM 在点、涂鸦、框和掩码视觉提示方面分别比 PSALM 高出 45.9%、45.9%、45.8% 和 47.4% 的 AP。
掩码视觉提示。更多关于其他分割和对话基准测试的结果和讨论在附录中提供。
4.3 消融研究
我们在混合微调、双编码器、多阶段训练和分割器架构上进行了消融研究,由于篇幅限制,仅呈现了部分基准测试结果。
混合微调。我们在表 6 中消融了混合微调对 X-SAM 性能的影响。如表 6 所示,混合微调在 COCO 基准测试之外的任务上提高了性能,这表明 X-SAM 在这些任务上具有强大的分割能力。例如,在 A150-OV 上 AP 提高了 6.0%,在 Reason-Val 上 gIoU 提高了 8.9%。然而,由于多源性能平衡的挑战,它导致 COCO-Pan 的 PQ 下降了 0.8%。
双编码器。我们在表 7 中消融了 X-SAM 中双编码器的设计。如表 7 所示,带有 SAM 或 Swin 编码器的双编码器在 VGD 分割方面都受益,分别在 COCO-VGD 上实现了 7.2% 和 7.9% 的 AP 提高。此外,带有 SAM 编码器的双编码器在 GCG-Val 和 A150-OV 上持续提高了性能,而缺乏强大分割能力的 Swin 编码器仅在 A150-OV 上提供了微小的改进,甚至对 GCG-Val 产生了负面影响。
多阶段训练。我们在表 8 中消融了多阶段训练策略的影响。如表 8 所示,阶段 1 的分割器微调阶段显著提高了分割能力,在 COCO-Pan 数据集上 PQ 提高了 9.3%,在 A150-OV 数据集上 AP 提高了 1.5%。同时,阶段 2 的对齐预训练阶段增强了图像理解能力,在 Conv.-MMB 上额外贡献了 2.1% 的准确率。通过整合这些阶段,X-SAM 在图像分割和理解复杂视觉任务方面表现出强大的进步,确立了其在解决复杂视觉任务中的有效性。
分割器架构。我们在表 9 中消融了分割器架构的影响,进行了 12 个周期的分割器微调。如表 9 所示,M2F 解码器带来了显著的改进,PQ 提高了 9.2%,这归功于 M2F 的有效设计。与 MLP 连接器相比,卷积连接器表现更好,因为卷积的空间感知能力有利于分割,多尺度进一步提高了性能(PQ 提高了 10.7%),提供了更多样化的尺度。
更多消融结果可以在附录中找到。
5 结论
在本工作中,我们提出了 X-SAM,一个统一的分割 MLLM,它将分割范式从“分割任何事物”扩展到“任何分割”,将所有图像分割任务整合到一个模型中。我们的方法能够处理 MLLMs 中的各种多模态输入,包括文本和视觉查询。此外,为了赋予 MLLMs 视觉引导的感知能力,我们引入了一个新的分割任务,视觉引导(VGD)分割,进一步扩展了统一分割模型的能力。我们在所有图像分割任务上进行了广泛的实验,X-SAM 在每个任务上都实现了最先进的性能,仅使用一个模型。
A 技术附录和补充材料
在附录中,我们首先提供了关于所提出方法的数据集、模型架构和实现的更多细节。然后,我们展示了更多基准测试上的额外实验结果,以证明我们方法的有效性。接下来,我们包括了关于数据集平衡重采样和图像编码器的消融研究。之后,我们提供了不同任务的进一步可视化结果。最后,我们讨论了限制和未来的工作。
A.1 更多数据集细节
训练数据集。在表 10 中,我们展示了多阶段训练中使用的数据集。对于分割器微调阶段,我们在通用分割数据集上微调分割器。对于对齐预训练阶段,我们在对齐的 LLaVA 558K(Liu et al. 2023b)数据集上预训练双投影器。对于混合微调阶段,我们在混合数据集上微调整个模型,包括分割和对话数据集。总共有六种类型的数据集,包括一个图像级数据集和五个分割数据集。
构建 COCO-VGD 数据集。COCO-VGD 数据集是基于 COCO2017 实例分割数据集的图像和注释构建的,它为图像中的每个对象提供了实例级分割掩码。我们按照(Zhang et al. 2024d)的方式,为图像中的每个实例自动生成四种类型的视觉提示:点、涂鸦、框和掩码。在训练和评估期间,我们随机为每个类别采样一种类型的视觉提示,作为视觉引导提示。
A.2 更多模型细节
模型架构。对于分割器,我们采用了 SAML 作为分割编码器,Mask2Former 头作为解码器。为了减少连接器参数的数量,我们采用了一个瓶颈架构,它首先通过一个 1×1 卷积将分割特征的维度减少到 512,然后通过一个 3×3 卷积进一步细化特征,最后通过另一个 1×1 卷积将维度扩展到由像素洗牌操作确定的值(Chen et al. 2024)。对于 MLLM,我们使用 SigLIP2-so400m 作为图像编码器,一个 MLP 作为图像投影器,另一个带有像素洗牌操作的 MLP 作为分割投影器,Phi-3-mini-4k-instruct 作为 LLM。X-SAM 的总参数量约为 5B。
区域采样。为了从视觉查询中采样区域特征,我们采用了(You et al. 2023)中的区域采样策略。具体来说,我们首先将视觉查询转换为二进制掩码,然后对分割器编码的特征进行点采样以获得区域特征,最后应用平均池化以产生最终的区域特征。这些区域特征被放置在语言指令中 <region>
A.3 更多训练细节
阶段 1:分割器微调。在分割器微调期间,我们解冻了分割器的所有参数,包括 SAM 编码器、分割连接器和分割解码器。学习率设置为 1e-4,除了分割编码器使用 1e-5 的学习率。我们将批量大小设置为 64,并训练 36 个周期。SAM 编码器使用预训练权重进行初始化,而分割连接器和解码器使用随机权重进行初始化。此外,我们在训练期间对图像应用随机尺度增强,尺度范围为 [0.1,2.0]。
阶段 2:对齐预训练。在对齐预训练期间,我们仅训练双投影器的参数,并保持所有其他参数固定。学习率设置为 1e-3,批量大小设置为 256。双投影器使用随机权重进行初始化,分割编码器使用阶段 1 中的预训练权重进行初始化,图像编码器和 LLM 使用其官方预训练权重进行初始化。训练进行 1 个周期。
阶段 3:混合微调。在混合微调期间,我们微调模型的所有参数。双编码器的学习率设置为 4e-6,其他模块的学习率设置为 4e-5。批量大小设置为 64,训练进行 1 个周期。分割编码器、分割连接器和分割解码器使用阶段 1 中的预训练权重进行初始化,图像编码器使用其官方预训练权重进行初始化。双投影器使用阶段 2 中的预训练权重进行初始化。此外,为了使训练更加稳定,我们确保全局批次中的所有数据来自同一来源。
多阶段训练中的超参数如表 11 所示。图 4 展示了多阶段训练的简化示意图。
A.4 更多评估细节
PSALM COCO-VGD 评估。PSALM(Zhang et al. 2024d)是一个支持通用分割、开放词汇表分割、指代分割、交互式分割等的分割 MLLM。为了评估其在我们提出的 COCO-VGD 数据集上的性能,我们遵循与 X-SAM 相同的评估流程。我们随机采样一些实例注释,如 X-SAM 所做的一样,然后将它们输入到 PSALM 以获得实例级预测。PSALM 在 COCO-Interactive 数据集上进行训练,该数据集与 COCO-VGD 来源相同,但实例级预测的分类性能较差,因为实例级预测的质量较低。这可能解释了为什么 PSALM 缺乏实例级视觉引导的能力。
X-SAM COCO-Interactive 评估。X-SAM 是第一个统一的分割 MLLM,能够适应所有图像分割任务,包括交互式分割(Zhang et al. 2024d)。为了评估其在 COCO-Interactive 数据集上的性能,我们首先使用 0.5 的阈值过滤实例级预测。然后,我们计算每个剩余预测与视觉提示掩码之间的 IoU 分数。最后,我们选择 IoU 分数最高的实例预测作为最终的交互式分割结果。
A.5 更多实验结果
通用分割。表 12 展示了通用分割的结果。由于我们的分割器设计和微调,X-SAM 能够适应通用分割,并在 COCO-Panoptic 上实现了具有竞争力的性能。
开放词汇表分割。表 13 展示了开放词汇表分割的结果。得益于 SAM 的强大掩码生成能力和我们的混合微调策略,X-SAM 在开放词汇表分割任务上实现了最佳性能。
推理分割。在表 14 中,我们在推理分割基准测试上展示了推理分割的结果。我们按照(Lai et al. 2024)的流程,在验证集和测试集上报告了我们方法的性能。X-SAM 在验证集和测试集上的 gIoU 指标上都实现了最佳性能,尽管它并不是专门针对推理分割设计的。虽然 cIoU 指标不是最佳的,但它仍然与最先进的方法相当。由于验证集和测试集中的样本数量有限,该基准测试上的结果可能并不稳定。
交互式分割。表 15 展示了交互式分割的结果。由于交互式分割与 VGD 分割共享相似的数据,我们排除了交互式分割的训练数据,并执行了一个类似于 VGD 分割的过程,以获得交互式分割结果。X-SAM 在交互式分割上实现了最佳或第二好的性能,即使没有在特定数据上进行训练。
封闭集分割。在表 16 中,我们展示了在封闭集 COCO-Panoptic 基准测试上对分割器进行微调的结果。为了保留 SAM 在掩码预测中的强大泛化能力,我们仅对 SAM 编码器进行了 36 个周期的微调。与其他方法相比,我们的方法仅用 36 个周期的微调就实现了与 SAM-L 编码器相当的性能。
图像级基准测试。在表 17 中,我们展示了在图像级基准测试上的结果,包括 MME(Fu et al. 2024)、MMBench(Liu et al. 2024c)、SEED-Bench(Li et al. 2024a)、POPE(Li et al. 2023b)和 AI2D(Kembhavi et al. 2016)。当与分割和对话数据集一起联合微调时,X-SAM 在这些基准测试上的表现优于其他分割 MLLMs。与 LISA(Lai et al. 2024)、PixelLM(Ren et al. 2024)和 GLaMM(Rasheed et al. 2024)相比,我们的方法取得了显著的改进,证明了其有效性——甚至超过了之前的最佳方法 OMG-LLaVA(Zhang et al. 2024c)。在 POPE 基准测试中,X-SAM 甚至超过了专门用于图像级对话的 LLaVA-V1.5(Liu et al. 2023b)。
A.6 更多消融研究
图像编码器。在表 19 中,我们通过替换为 CLIP(Radford et al. 2021)、SigLIP-so400m(Zhai et al. 2023)和 SigLIP2-so400m(Tschannen et al. 2025)来消融 X-SAM 的图像编码器。可以观察到,使用更强大的图像编码器可以提高 X-SAM 对图像内容的理解能力,尤其是在图像对话和 GCG 分割基准测试中,甚至在通用分割基准测试中也提高了性能。尽管 SigLIP 在推理分割基准测试上实现了最佳性能,但它在其他基准测试上并没有性能优势。与此同时,SigLIP2 在所有基准测试中都表现出更稳健且一致的更好性能。因此,我们在最终实验中采用了 SigLIP2-so400m 作为图像编码器。
A.7 更多可视化结果
通用分割。图 5 展示了 X-SAM 在通用分割中的可视化结果,包括语义、实例和全景分割,这需要对图像进行语义和实例级别的理解。X-SAM 能够为图像中的对象生成准确且完整的掩码。
开放词汇表分割。图 6 展示了 X-SAM 在开放词汇表(OV)分割中的可视化结果,包括 OV-语义、OV-实例和 OV-全景分割,这需要分割训练集中不存在的对象。X-SAM 能够分割训练集中不存在的对象,证明了所提出方法的强大泛化能力。
GCG 分割。图 7 展示了 X-SAM 在 GCG 分割中的可视化结果,这需要描述图像并输出相应的掩码。X-SAM 不仅能够有效地理解图像并生成语言描述,还能够为相应的对象生成分割掩码。
指代分割。图 8 展示了 X-SAM 在指代分割中的可视化结果,这需要分割自然语言所指代的对象。X-SAM 能够有效地理解指代表达,并分割自然语言所指代的对象。
推理分割。图 9 展示了 X-SAM 在推理分割中的可视化结果,这需要分割与问题相关的对象。X-SAM 能够有效地理解复杂的问题,然后为相应的对象生成掩码。
交互式分割。图 10 展示了 X-SAM 在交互式分割中的可视化结果,这需要分割用户交互的单个对象。X-SAM 能够为用户的交互式视觉提示生成相应的掩码。
VGD 分割。图 11 展示了 X-SAM 在单图像的 VGD 分割中的可视化结果,这需要分割用户视觉提示所定位的图像中的所有对象。X-SAM 能够有效地分割用户视觉引导提示所定位的图像中的所有对象。此外,X-SAM 还能够对跨图像进行 VGD 分割,这需要分割另一个图像中定位的对象。图 12 展示了 X-SAM 在跨图像的 VGD 分割中的可视化结果,这证明了 X-SAM 在单图像和跨图像的 VGD 分割中的有效性。
A.8 进一步讨论
限制。尽管 X-SAM 通过将“分割任何事物”扩展到“任何分割”实现了统一的分割,但仍有很大的改进空间。首先,与分割数据集和对话数据集一起联合微调会对某些分割数据集的性能产生负面影响,这一现象也在(Zhang et al. 2024c)和(Rasheed et al. 2024)中观察到。这一挑战可能通过设计更平衡的数据集组合来解决。其次,X-SAM 在所有任务上的性能并非最佳,这一现象也在其他统一分割方法(Zhang et al. 2024c;Rasheed et al. 2024;Lai et al. 2024)中观察到。这一挑战仍然是统一模型面临的主要障碍,可能通过扩大模型规模和训练量来解决。
未来工作。随着我们新颖的统一框架,可以探索几条未来的研究方向。我们强调两个潜在的方向。第一个是将 X-SAM 与 SAM2(Ravi et al. 2024)整合,后者是一个用于图像和视频分割的统一模型。这种整合将进一步扩展 X-SAM 在视频分割中的应用。第二个方向是将 VGD 分割扩展到视频领域,这将构成一个有趣的视频分割任务,并将视觉引导的时间信息引入分割。我们计划在未来探索这些方向,前提是能够获得更多的计算资源。