三篇多模态大模型进展综述

最新推荐文章于 2025-07-08 18:45:50 发布

原创

最新推荐文章于 2025-07-08 18:45:50 发布 · 1.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC

Modality Bridging 综述
多模态大型语言模型（MLLM）可实现基于图像撰写故事和无 OCR 的数学推理，在传统方法中很少见，这表明了通向通用人工智能的潜在路径。

通常人们会在 pair 数据上进行大规模（相对于 instruction tuning）的预训练，对齐数据集通常是图像文本对或自动语音识别（ASR）数据集，它们都包含文本。对齐预训练的常见方法是保持预训练模块（例如视觉编码器和 LLMs）冻结，并训练一个可学习的接口，本文调研了到近期位置不同的接口设计以及学习方法相关的文章。Ref

论文标题：
Flamingo: a Visual Language Model for Few-Shot Learning
论文链接：
https://arxiv.org/abs/2204.14198

多模态大语言模型综述

论文链接：
https://arxiv.org/pdf/2306.13549.pdf
项目链接（每日更新最新论文）：
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

相比于以往的多模态方法，例如以 CLIP 为代表的判别式，或以 OFA 为代表的生成式，新兴的 MLLM 展现出一些典型的特质：（1）模型大。MLLM 通常具有数十亿的参数量，更多的参数量带来更多的潜力；（2）新的训练范式。

为了激活巨大参数量的潜力，MLLM 采用了多模态预训练、多模态指令微调等新的训练范式，与之匹配的是相应的数据集构造方式和评测方法等。

在这两种特质的加持下，MLLM 涌现出一些以往多模态模型所不具备的能力，例如给定图片进行 OCR Free 的数学推理、给定图片进行故事创作和理解表情包的深层含义等。

本综述主要包括：