Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation用于图像理解和生成的自回归基础模型-CSDN博客

本文链接：https://blog.csdn.net/Together_CZ/article/details/148789904

这篇文章介绍了一个名为Pisces的自回归多模态基础模型，旨在同时实现图像理解和图像生成任务。以下是文章的主要研究内容总结：

1. 研究背景与动机

现状：多模态基础模型在图像理解和图像生成方面表现出色，但统一模型在两项任务中均表现出色的模型仍较少。目前的统一模型在性能上通常不如专门化的模型。
挑战：图像理解需要高分辨率的输入和长序列的视觉特征，而图像生成则需要短序列的视觉特征以提高生成效率。此外，图像理解和生成所需的视觉编码器通常是不同的，这增加了统一模型设计的难度。

2. Pisces模型架构

解耦视觉编码架构：Pisces采用了新颖的解耦视觉编码架构，分别针对图像理解和图像生成设计了不同的视觉编码器和投影层。
- 图像理解：使用SigLIP编码器，提取高分辨率图像的详细视觉特征。
- 图像生成：使用gen-CLIP编码器，将图像压缩为较短的视觉向量序列，便于自回归生成。
多模态语言模型：基于预训练的LLM（LLaMA-3.1-Instruct 8B），结合图像向量和文本嵌入进行训练。
扩散模型：作为图像解码器，将生成的视觉向量解码为图像。

3. 训练过程

三阶段训练：
1. 多模态预训练：在高质量图像和标题对上预训练，学习图像和标题生成的基础技能。
2. 细粒度多模态预训练：在详细标题对上继续预训练，增强视觉特征与文本标记的对齐。
3. 指令微调：在精心策划的指令数据集上微调，提升模型在多样化任务中的指令遵循能力。

4. 实验与评估

图像理解：
- 在20多个公共基准测试中评估，Pisces在大多数任务中超越了开源统一模型，甚至在某些任务中超过了专门化的图像理解模型。
- 例如，在MMBench上比EMU3高出26.3%，在MME-P上比Seed-X高出8.6%。
图像生成：
- 在GenEval基准测试中，Pisces表现出色，与专门的图像生成模型相比具有竞争力。
- 定性结果表明，Pisces能够根据复杂提示生成高质量图像。

5. 关键结论

协同关系：图像理解和图像生成任务在统一框架内可以相互促进。实验表明，图像理解能力的提升有助于提高图像生成性能，反之亦然。
解耦编码器的优势：使用独立的视觉编码器分别处理图像理解和生成任务，可以显著提升模型性能。这种设计允许模型在两项任务中分别优化视觉特征的提取和生成。
细粒度预训练的重要性：通过在详细标题对上进行细粒度预训练，模型的图像生成能力得到了显著提升。

6. 创新点与贡献

提出了一个新颖的解耦视觉编码架构，有效解决了图像理解和生成任务之间的差异。
设计了三阶段训练策略，逐步提升模型在多模态任务中的性能。
在多个基准测试中验证了模型的优越性能，为统一多模态模型的研究提供了新的思路和方法。

总的来说，Pisces通过创新的架构和训练策略，在图像理解和生成任务中均取得了显著的性能提升，为多模态模型的发展提供了新的方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

最近在大型语言模型（LLMs）方面的进展使得多模态基础模型能够在统一框架内处理图像理解和生成任务。然而，这些统一模型通常在单一任务上表现不如专门化的模型。开发统一模型的关键挑战在于图像理解所需的视觉特征与生成所需的视觉特征之间存在固有差异，以及每种模态所需的训练过程也不同。在本研究中，我们引入了Pisces，这是一个自回归多模态基础模型，通过新颖的解耦视觉编码架构和为多模态生成量身定制的训练技术来解决这一挑战。结合精心策划的数据、预训练和微调，Pisces在图像理解和图像生成方面均展现出竞争力。我们在超过20个公共基准测试中评估了Pisces的图像理解能力，它在广泛的任务中表现出色。此外，在广泛采用的图像生成基准测试GenEval中，Pisces也展现出强大的生成能力。我们的广泛分析揭示了图像理解和生成之间的协同关系，以及使用独立视觉编码器的好处，推动了统一多模态模型领域的发展。

1. 引言

虽然专注于图像理解或图像生成的多模态基础模型已被广泛研究并表现出色，但在两项任务中均表现出色的统一模型仍待探索。最近的一些工作（Aghajanyan等人，2022；Koh等人，2023；Wu等人，2023；Dong等人，2024；Zhan等人，2024；Sun等人，2024b；Ge等人，2024；Team，2024；Wang等人，2024；Xu等人，2025）在这方面做出了初步努力，但统一多模态模型与专门化多模态模型之间仍存在显著的性能差距，限制了这些模型在实际应用中的实用性。

先前的研究（Liu等人，2023c；Li等人，2023c；Zhu等人，2023a；Dai等人，2023；Liu等人，2023b）表明，通过利用预训练的大型语言模型（LLMs）（Raffel等人，2020；Touvron等人，2023a,b）和视觉编码器（Radford等人，2021）来训练图像理解模型，可以在显著降低计算成本的情况下取得出色表现，相比从头开始训练模型（Alayrac等人，2022；Wang等人，2022, 2023b）。我们选择基于预训练的大型语言模型（lla，2024）、CLIP图像编码器（Radford等人，2021；Sun等人，2023a）和扩散模型（Rombach等人，2022a；Podell等人，2023；Esser等人，2024）来设计Pisces的架构，优化预训练组件的使用。具体来说，我们使用预训练的CLIP编码器将图像转换为连续的视觉表示，这些表示在我们的框架中具有双重作用，即为图像理解提供上下文，并作为图像生成的监督信号。扩散模型作为图像解码器，被训练以将CLIP模型编码的图像向量解码为原始图像。

然而，我们之前的研究以及第6.2节和6.3节中的初步研究都强调了这种方法的显著局限性（Ge等人，2024）。图像理解受益于更高的输入分辨率，这需要更长的图像向量序列（例如，768或4096个向量）来捕捉图像的全部细节（Liu等人，2023b；Xu等人，2024a）。相反，对于图像生成，自回归地生成如此长的视觉向量序列对LLMs来说是一个挑战。实际上，较短的32或64个向量序列足以恢复原始图像的大部分视觉细节，并且更容易被模型学习（Sun等人，2024b；Ge等人，2024；Chen等人，2024b）。此外，通常情况下，用于理解的最佳公开图像编码器（Zhai等人，2023）和用于生成的最佳公开图像编码器（Sun等人，2023a）并不是同一个模型。为了解决这一挑战，我们提出了一个新颖的解耦视觉编码架构，用于图像理解和生成，如图2所示。这种架构允许每个任务使用不同的图像编码器、投影层和量身定制的视觉向量长度，增强了模型设计的灵活性，同时降低了相对于单编码器设置的推理成本。因此，对于图像理解，Pisces可以推理包含丰富视觉细节的长序列视觉向量，同时在生成时享受建模短序列图像向量的更好视觉质量和高效率。

我们引入了一个三阶段训练过程，逐步为Pisces在多模态生成中启用新的能力。在第一阶段，我们在Shutterstock提供的高质量图像和简短标题对上预训练Pisces，使模型能够学习图像和标题生成的基础技能。在第二阶段，我们继续在图像和详细标题对上预训练模型，以实现视觉特征和文本标记在多模态生成中的细粒度对齐。在第三阶段，我们进一步在精心策划的指令微调数据集上微调模型，其中每个实例包括一个用户指令，配对一个文本响应或图像输出。这个数据集涵盖了广泛的下游任务，并纳入了多样化的用户指令，确保模型在各种场景下的强大指令遵循能力和鲁棒性。

在我们的全面评估中，我们首先在超过20个公共基准测试中评估Pisces在图像理解方面的表现，证明Pisces在其中大多数基准测试中取得了卓越的结果，甚至超越了专门设计用于图像理解的模型。其次，我们在流行的图像生成基准测试GenEval中报告了Pisces的性能，它在图像生成能力和指令遵循能力方面表现出色。此外，我们揭示了图像生成和理解任务之间的协同关系。令人惊讶的是，在统一的多模态框架内共同训练这两个任务表明，图像理解任务可以显著增强图像生成性能，反之亦然，图像生成也可以促进图像理解性能。我们还进行了消融研究，以突出使用独立视觉编码器用于图像理解和生成的好处。这些见解为统一多模态模型领域的未来研究提供了启示。

2. 模型架构

我们的模型设计灵感来源于最近多模态模型的架构（Liu等人，2023c；Sun等人，2024b；Ge等人，2024），这些模型有效地利用预训练模型实现强大性能。如图2所示，我们提出了一个新颖的解耦视觉编码架构，用于能够进行图像理解和生成的自回归多模态模型。该模型包括一个预训练的LLM、一个专门用于图像理解的图像编码器ϕ、一个针对图像生成优化的单独图像编码器φ和一个扩散模型。我们在以下章节中描述模型的每个组成部分。

2.1 解耦视觉表示

解耦视觉编码架构的设计理念源于图像理解和图像生成所需的视觉表示之间的固有差异。具体来说，图像理解要求视觉编码器从原始图像中提取详细且丰富的语义信息，以促进准确的分析和理解，这需要一个长序列的图像向量。相比之下，图像生成要求视觉编码器将像素级信息压缩成一个紧凑的向量序列，高效地捕捉视觉外观的本质，同时优化自回归生成。下面我们将详细解释独立的视觉编码过程。

图像理解

给定输入图像I，图像理解视觉编码器ϕ将其处理成连续图像表示ϕ(I)的序列。这些表示随后通过MLP模块投影到语言模型的潜在空间中，得到

其中n表示视觉标记的数量，d是视觉标记在MLP投影后隐藏维度的大小。

图像生成

图像生成视觉编码器φ将图像I处理成连续向量序列，表示为φ(I)。在图像生成任务中，LLM被训练以自回归的方式预测这些向量。然而，自回归地生成如此长的连续图像向量序列对LLMs来说是一个显著挑战（见第6.3节的进一步分析）。为了缓解这一问题，我们使用平均池化来减少视觉标记的数量，从而使序列更易于管理，同时保留关键的视觉信息。为此，图像标记序列φ(I)首先被重塑为二维结构。接下来，我们应用二维池化，步长为a，对这一结构进行下采样，池化后得到一个长度为m的扁平化标记序列。最后，额外的MLP层将这些池化后的图像向量投影到LLM的潜在空间中，得到用于图像生成任务的图像表示：

2.2 多模态大型语言模型

为了有效管理图像理解和图像生成任务，精心设计的训练目标至关重要。给定一个图像-文本对，对于图像理解，我们的目标是根据图像预测相应的文本。相反，对于图像生成，文本被用作条件提示来生成图像。具体来说，给定一段文本，LLM的嵌入层将每个文本标记映射成一个向量，形成文本嵌入T。对于图像理解，图像向量Vₙ被添加到文本嵌入的前面，形成X = [Vₙ; T]，然后输入到LLM中。图像理解的训练目标是根据输入的图像向量和之前生成的文本标记来预测下一个文本标记的概率分布。

对于图像生成，图像向量Vₘ被添加到文本嵌入的后面，形成X = [T; Vₘ]。在此任务中，目标是根据输入的文本和之前生成的图像向量来预测下一个连续的图像向量。

因此，我们可以大致定义两个任务的统一训练目标为：

其中xᵢ表示一个离散的文本标记或一个连续的图像向量，θ表示多模态大型语言模型的参数，N表示序列长度，D是包含图像理解和图像生成实例的训练数据集。统一目标通过两种类型的损失函数进行优化：（1）对于图像理解，交叉熵损失用于减少预测的文本标记概率分布与真实分布之间的差异；（2）对于图像生成，均方误差（MSE）损失用于最小化预测的图像向量与图像编码器生成的真实图像向量之间的差异。

2.3 使用扩散模型进行图像解码

给定预测的视觉向量Vₘ，我们使用条件扩散模型作为解码器，从这些向量中重建图像。这个条件扩散模型是与CLIP图像编码器一起预训练的，根据CLIP模型的最终层嵌入生成原始图像。这种方法在先前的研究中已显示出有效性（Sun等人，2024b；Ge等人，2024；Dong等人，2024）。在预训练过程中，图像编码器保持冻结状态，而扩散模型则进行更新。

2.4 推理

在图像生成的推理过程中，多模态大型语言模型以自回归的方式预测所有m个图像向量。这些向量随后通过图像生成头映射回图像编码器的向量空间，然后输入到扩散模型中以指导去噪过程。根据Sun等人（2024b）的研究，多模态模型使用空标题作为输入，提供分类器自由引导。对于图像理解，该过程遵循标准的语言建模，使用下一个标记预测来生成文本输出。

3. 模型训练和数据

3.1 训练阶段1：多模态预训练

在预训练阶段，我们同时优化模型以实现图像描述和图像生成。对于图像生成，我们使用Shutterstock数据集中的1.5亿对高质量图像-标题对，应用提示“请根据以下标题生成图像：<caption><image><image>

[/IMG] 请为给定的图像提供详细描述。<caption>

3.2 训练阶段2：细粒度多模态预训练

在细粒度多模态预训练阶段，我们继续在7000万图像和详细标题对上预训练Pisces，用于生成和理解。与第一阶段使用的详细标题类似，这些详细标题也是由Llama 3.2模型生成的。这一阶段旨在增强生成图像中文本标记与视觉特征之间的对齐，同时避免图像理解性能下降。图像生成和理解的提示与第一阶段相同。

3.3 训练阶段3：图像理解和生成的指令微调

在指令微调阶段，我们进一步优化Pisces在图像理解和生成方面的能力和泛化性。对于图像理解，我们从两个综合数据集Cambrian-7M（Tong等人，2024a）和Vision Flan（Xu等人，2024b）中精心策划了一系列图像理解任务，最终得到800万高质量的图像-文本对。对于图像生成，我们从预训练中使用的Shutterstock数据集中随机抽取400万图像和简短标题对，以及400万图像和详细标题对。通过混合简短和长标题的实例，我们保留了更广泛的输入格式分布。我们将图像生成和理解的数据集合并，并在每一步随机采样训练实例，以促进平衡且有效的学习过程。

3.4 实施细节

在Pisces中，我们使用LLaMA-3.1-Instruct 8B（lla，2024）初始化多模态语言模型，使用siglip-so400m-patch14-384（Zhai等人，2023）作为图像理解的视觉编码器，并使用一个同时接受MAE重建损失（He等人，2021）和对比损失（Radford等人，2021）训练的CLIP模型作为图像生成的视觉编码器，记作gen-CLIP。图像理解和生成的两个投影层均由两层MLP组成，图像生成输出头也是一个两层的MLP。对于图像解码，我们按照（Sun等人，2024b）的方法训练SDXL（Podell等人，2023）作为图像解码器，从gen-CLIP图像嵌入中重建图像。我们使用4×4的池化核将gen-CLIP嵌入池化为64个连续向量。在所有三个阶段中，我们训练多模态LLM、图像理解和生成的两个MLP，同时保持两个图像编码器冻结。我们将学习率设置为2e-5，并使用带有热身的常数学习率调度器。热身比例为0.03。前两个阶段的批量大小为2048，第三阶段为1024。

4. 评估

4.1 图像理解

基线模型：我们对模型进行了评估，将其与最近能够同时进行图像理解和生成的开源统一模型以及专门用于图像理解的强大基线模型进行比较。统一模型包括EMU2 Chat（Sun等人，2024b）、Chameleon（7B和34B）（Team，2024）、Seed-X（Ge等人，2024）、CM3Leon（Yu等人，2023a）、DreamLLM（Dong等人，2024）、Show-o（Xie等人，2024）和EMU3（Wang等人，2024）。对于与专门化模型的比较，我们使用LLaVA 1.5（7B和13B）（Liu等人，2023b），这些模型专门用于图像理解任务。

基准测试：我们在包含四个不同类别的广泛基准测试中评估了不同MLLM模型的性能：通用多模态基准测试：VQAv2（Goyal等人，2017）、GQA（Hudson和Manning，2019）、MMBench（英文和中文）（Liu等人，2023d）、VisWiz（Gurari等人，2018）、POPE（Li等人，2023d）、MM-Vet（Yu等人，2023b）、MME-P（Fu等人，2024）、MME-C（Fu等人，2024）、SeedBench（Li等人，2023b）、HallusionBench（Liu等人，2023a）、LLaVA in the Wild（Liu等人，2024b）和MMStar（Chen等人，2024c）。视觉中心基准测试：MMVP（Tong等人，2024b）、RealworldQA（x.ai，2023）、CV-Bench（Tong等人，2024a）。基于知识的基准测试：AI2D（Kembhavi等人，2016）、MathVista（Lu等人，2023）、MMMU（Yue等人，2024）和ScienceQA（Lu等人，2022）。OCR和图表基准测试：TextVQA（Singh等人，2019）、OCRBench（Liu等人，2024c）、DocVQA（Mathew等人，2021）和InforVQA（Mathew等人，2022）。

4.2 图像生成

基线模型：我们将我们的模型与能够同时进行图像理解和生成的最先进的统一模型进行比较，包括CoDI（Tang等人，2024）、LWM、SEED-X（Ge等人，2024）、EMU（Sun等人，2023b）、Chameleon（Team，2024）、Transfusion（Zhou等人，2024）、Show-o（Xie等人，2024）、EMU3（Wang等人，2024）和Janus（Wu等人，2024）。此外，我们还对专门用于图像生成的模型进行基准测试，例如SDv1.5（Rombach等人，2022b）、DALL-E 2（Ramesh等人，2022）、PixArt-alpha（Chen等人，2024a）、Llama Gen（Sun等人，2024a）、LDM（Blattmann等人，2023）、SDv2.1（Rombach等人，2022b）、SDXL（Podell等人，2023）和SDv3（Esser等人，2024）。

基准测试：我们在GenEval（Ghosh等人，2023）上评估了Pisces的图像生成性能，这是一个广泛采用的图像生成基准测试。我们使用GenEval的官方实现来评估指标。

5. 主要结果

5.1 图像理解

综合评估基准测试：如表1（a）所示，与开源统一模型相比，Pisces在大多数综合评估基准测试中均取得了最先进的性能。它甚至超越了比其大2到4倍的统一模型，例如Seed-X 17B和Chameleon 34B，突显了其作为通用视觉聊天助手的强大能力。此外，我们的模型在多个基准测试中大幅超越了所有近期模型，例如在MMBench上比EMU3高出26.3%，在MME-P上比Seed-X高出8.6%，在MM-Vet上比EMU3高出34.4%。

视觉中心、基于知识和OCR & 图表基准测试：我们在表1（b）中展示了Pisces在特定领域的基准测试结果。可以看出，我们的模型在大多数任务中均取得了最佳性能，与开源统一模型相比，甚至在与专门用于理解的强大模型相比时也表现出可比的性能。

5.2 条件图像生成

我们在表2中展示了Pisces在GenEval基准测试中的性能。值得注意的是，Pisces在统一理解和生成模型中取得了具有竞争力的性能，突显了其在图像生成方面的强大指令遵循能力。我们还在图3中展示了Pisces与具有图像生成能力的统一模型之间的定性比较。可以看出，Pisces能够遵循复杂的用户提示生成高质量的图像。

6 讨论

6.1 图像理解和图像生成之间的协同关系

在本节中，我们在统一模型架构内探讨图像理解和图像生成是否可以相互受益。由于计算资源有限，我们在预训练阶段1中使用了1500万图像和详细标题对的子集进行预训练。对于指令微调，我们使用了LLaVA-Instruct-150K数据集（Liu等人，2023b）。我们在三种不同的数据设置下训练了三种模型变体：（1）PISCES，它在图像理解和生成数据的组合上进行预训练，随后在LLaVA-Instruct-150K上进行指令微调；（2）PISCES w/o Und，仅在Shutterstock数据集上进行预训练；（3）PISCES w/o Gen，仅在PixelProse数据集上进行预训练，并在LLaVA-Instruct-150K上进行微调。我们训练了多模态LLM、图像理解和生成的两个MLP，同时保持两个图像编码器冻结。我们将学习率设置为2e-5，并使用带有热身的余弦衰减学习率调度器。热身比例为0.03。批量大小为1024。

我们在一系列图像理解基准测试上评估了这三种变体的性能，并在MSCOCO-30K（Lin等人，2014）上测量了它们的FID分数，如表3所示。显然，在受限的训练数据设置下，图像理解显著增强了图像生成能力，反之亦然，图像生成也有助于提高图像理解能力。这一结果证实了图像理解和生成之间的协同关系。

6.2 解耦视觉编码器的好处

我们进行了消融研究，以验证在两种设置中使用解耦视觉编码器的有效性：（1）我们使用gen-CLIP作为图像理解（不进行池化，总共1024个视觉标记）和图像生成（进行池化，总共64个视觉标记）的编码器，并按照第6.1节中描述的确切训练设置训练Pisces。得到的Pisces-gen-CLIP模型在图像生成方面取得了与使用解耦编码器的Pisces相当的性能（Pisces-gen-CLIP为40.5，Pisces为38.2），但在图像理解方面表现较差，如表4所示；（2）我们还尝试使用SigLIP作为图像理解和图像生成的编码器。

表4 使用解耦的图像理解编码器（SigLip）和图像生成编码器（gen-CLIP）的Pisces，以及使用相同图像理解和生成编码器（gen-CLIP）的Pisces的性能。

方法	Pope	AI2D	MME	MathVista	MM-Vet	SeedB.
解耦	87.7	64.1	1507.0	31.3	37.5	74.4
gen-CLIP	80.8	48.7	1185.5	22.2	27.3	62.8

我们训练了SDXL模型，使用Shutterstock中的3000万高质量图像来解码SigLIP特征。然而，SigLIP+SDXL架构并未达到与Gen-CLIP+SDXL架构相同的重建性能水平。我们认为这种差异是由于SigLIP在预训练期间缺乏掩码自编码（MAE）损失，这限制了模型捕捉细粒度像素级细节的能力。这一限制突显了解耦图像编码器用于理解和生成的好处，因为最适合这些任务的公开可用编码器通常不是同一个模型。

6.3 图像生成中视觉标记数量的影响

在图像生成任务中，LLM被训练以自回归的方式预测连续的图像向量。然而，我们观察到较长的序列长度对LLM来说是一个显著的挑战。为了快速探索图像生成所需的图像标记数量，我们使用SigLIP ViTL/16@384进行了实验。具体来说，我们将完整的序列长度729个图像标记与池化策略进行了比较：步长为3，得到81个视觉标记，步长为9，得到9个视觉标记。对于图像生成任务，我们训练了三个不同输入图像标记数量的模型，训练步数为6000步。如图4所示，使用完整长度（729个视觉标记）会导致最高的训练损失。减少视觉标记的数量可以降低损失，尽管仅使用9个视觉标记可以实现最低的生成损失，但由于池化过程中的信息丢失过多，导致性能较差。因此，我们选择了中间的方法，即步长为3的池化。

6.4 详细标题对图像生成的影响

在本节中，我们说明了第二阶段预训练中详细标题的重要性。我们以第一阶段训练的Pisces为起点，该模型在1.5亿对图像和简短标题对上进行了生成训练，然后在两种不同的设置中进行进一步的预训练。在第一种设置中，我们在第二阶段预训练中使用7000万详细的图像标题，以增强图像生成和理解能力。

表5 在第二阶段训练中，使用简短标题与长标题训练的Pisces的性能比较。

训练阶段	MSCOCO-30K ↓
第一阶段	25.6
第二阶段（短标题）	27.6
第二阶段（长标题）	21.9

在第二种设置中，该模型在7000万对图像和简短标题上进行图像生成预训练，以及在7000万对图像和详细标题上进行图像理解预训练。我们在表5中展示了这些模型在MSCOCO-30K上的FID分数。可以看出，增加更多的简短标题并未进一步提高模型的FID分数，而使用长标题则一致地提高了图像生成性能。

7 相关工作

最近的研究（Liu等人，2023c；Li等人，2023c）表明，通过从预训练的语言模型和视觉编码器引导预训练，可以轻松地训练出强大的图像理解模型，同时显著降低计算成本。Xu等人（2023）提出了第一个人类标记的多模态指令微调数据集，随后的研究（Ye等人，2023；Yin等人，2023；Li等人，2023a；Lyu等人，2023；Zhu等人，2023a；Dai等人，2023；Liu等人，2023b；Chen等人，2023；Wang等人，2023a；Xu等人，2024b）通过增加人类标记和GPT4标记的指令来增强视觉指令微调。最近，Bai等人（2023）；Liu等人（2024a）；Li等人（2024a）；Shen等人（2024）；Xu等人（2024a）提出了各种训练技术和模型架构，以提高图像理解模型的性能，并允许更灵活的输入图像和文本格式。在统一多模态模型中，通常采用两种主要方法。第一种方法使用VQGAN（Esser等人，2021）将图像离散化为一系列标记，随后将VQGAN的码本纳入语言模型的词汇表中（Aghajanyan等人，2022；Yu等人，2023a；Yasunaga等人，2023；Team，2024；Jin等人，2023）。这使得语言模型可以在统一的自回归目标下进行训练，预测图像标记或文本标记。第二种方法采用CLIP图像编码器，将图像编码为连续嵌入序列（Koh等人，2023；Tang等人，2023；Zhu等人，2023b；Sun等人，2023b，2024b；Li等人，2024b；Wu等人，2023；Tian等人，2024）。这些嵌入与文本嵌入按顺序组合，通常允许较短的序列长度，并且比基于标记的方法取得了更好的性能。然而，这两种方法都使用相同的视觉编码器、投影层和图像标记数量用于图像生成和理解，忽略了这两个任务之间的固有差异，导致次优性能。

8 结论

在本文中，我们介绍了Pisces，这是一个统一的多模态基础模型，有效地弥合了图像理解和生成之间的差距。通过引入非对称视觉编码架构和针对任务的训练技术，Pisces证明了一个单一模型可以在多种模态中实现强大性能，而不会牺牲专业化的深度。我们在超过20个基准测试中的广泛评估验证了该模型在图像理解和生成任务前沿的性能。我们相信从Pisces获得的见解将激发未来的创新，推动更强大、更灵活的多模态建模方法的发展。