字节Bagel多模态大模型解读

github:https://github.com/bytedance-seed/BAGEL

paper:https://arxiv.org/pdf/2505.14683

本文是一篇关于多模态预训练模型BAGEL的论文,由来自字节跳动、深圳先进技术研究院、莫纳什大学、香港科技大学和加州大学圣克鲁兹分校的研究人员共同撰写。BAGEL是一个开源的基础模型,支持多种模态的理解和生成,包括文本、图像和视频。该模型在大规模交错的多模态数据上进行了预训练,展现出了复杂的多模态推理能力,并在多个标准基准测试中显著超越现有的开源统一模型。

背景知识

多模态理解与生成是一个新兴的研究领域,许多研究项目已经展示了在优化生成和理解基准测试中联合优化的潜力。然而,现有的模型大多只在标准的图像生成和理解任务中的图像-文本配对数据上进行训练,导致学术模型与专有系统(如GPT-4o和Gemini 2.0)之间存在显著差距。论文认为,缩小这一差距的关键在于使用精心设计的多模态交错数据进行扩展。

研究方法

BAGEL模型架构

BAGEL采用了无瓶颈的混合专家Transformer(MoT)架构,其中包含两个Transformer专家:一个用于多模态理解,另一个用于多模态生成。这种设计允许在不引入任务特定约束的情况下最大化模型的容量。模型使用了两个独立的视觉编码器:一个用于理解,另一个用于生成,并且所有标记在每个Transformer块中共享多模态自注意力操作。

  • 文本标记化和编码:使用Qwen2.5 LLM作为初始化,采用RMSNorm、SwiGLU激活函数、RoPE位置编码和GQA技术。

  • 视觉理解:使用ViT编码器将原始像素转换为标记,采用SigLIP2-so400m/14作为初始化。

  • 视觉生成:使用预训练的VAE模型将图像从像素空间转换为潜在空间,再进行处理。

  • 位置编码和扩散时间步编码:对ViT和VAE标记进行2D位置编码,并添加时间步嵌入到VAE标记的初始隐藏状态中。

数据构建

BAGEL的数据构建协议旨在创建高质量的多模态交错数据集,包括文本、图像、视频和网页数据。数据来源包括网页数据、视频数据以及从网页文档中提取的交错资源。

  • 文本数据:补充高质量的文本数据以支持语言建模能力。

  • 视觉文本配对数据:包括VLM图像-文本对和T2I图像-文本对,用于VLM预训练和T2I生成。

  • 视觉文本交错数据:从视频和网页数据中构建,以支持更丰富的多模态交互。

训练策略

BAGEL采用了多阶段训练策略,包括对齐阶段、预训练阶段、持续训练阶段和监督微调阶段。训练过程中,调整了文本采样比率和学习率以平衡理解和生成任务的信号。

实验与结果

性能评估

BAGEL在多个标准基准测试中进行了评估,包括多模态理解、文本到图像生成和图像编辑任务。

  • 多模态理解:在MME、MMBench等六个基准测试中,BAGEL在7B激活参数规模下超越了其他统一模型。

  • 文本到图像生成:在GenEval和WISE基准测试中,BAGEL的总体分数分别为82%和52%,在WISE基准测试中超过了所有先前模型,仅低于GPT-4o。

  • 图像编辑:在GEdit-Bench和IntelligentBench上,BAGEL的性能与领先的专家图像编辑模型Step1X-Edit相当,并在IntelligentBench上超越了它。

新兴能力

随着预训练的进行,BAGEL展现出了新兴能力,这些能力在训练的后期阶段才出现。例如:

  • 基本多模态理解和高保真生成:在训练的早期阶段就已收敛。

  • 复杂编辑和自由形式视觉操作:在训练的中期阶段出现。

  • 长上下文推理:在训练的后期阶段开始影响多模态理解和生成。

智能编辑与推理

BAGEL在包含复杂推理步骤的图像编辑任务中表现出显著的性能提升。在IntelligentBench上,BAGEL的得分为44.9,而开启自CoT(chain-of-thought)功能后,得分提升至55.3。

结论

BAGEL作为一个统一的多模态理解和生成模型,在标准多模态理解和生成基准测试中表现优异,并在复杂的多模态推理和世界建模任务中展现出了强大的能力。论文希望BAGEL的开源能够推动多模态研究的进一步发展。

论文还提到了BAGEL的未来工作,包括扩大训练数据规模、增加模型容量以及在最终的后训练阶段应用强化学习人类反馈(RLHF)来提升性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值