基于LLMs的多模态大模型(MiniGPT-4,LLaVA,mPLUG-Owl,InstuctBLIP,X-LLM)

文章介绍了MiniGPT-4、LLaVA和mPLUG-Owl三个基于LLMs的多模态大模型,这些模型通过两阶段的微调策略增强理解和生成能力。MiniGPT-4结合了BLIP-2和Vicuna,LLaVA利用CLIP和LLaMA,而mPLUG-Owl引入了VisualAbstractor模块。所有模型都在多模态指令数据集上进行训练,以提升跨模态理解性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这个系列的前一些文章有:

前一篇博文的最后整理到KOSMOS-1,KOSMOS-1已经开始使用Unnatural Instruction进行微调,其能更好的服从用户需求,本篇博文将继续整理一堆最近出的文章们,包括粘合BLIP-2和Vicuna的MiniGPT-4模型,和一些使用Instruction Tuning来训练的文章们。


MiniGPT-4
MiniGPT-4是粘合基于BLIP-2和Vicuna的模型,模型结构比较简明,如下图所示:
在这里插入图片描述
具体来说,就是直接将BLIP-2的Qformer和视觉编码器来过来,再拼接用户的query(含多轮对话),再输入到Vicuna中生成句子即可。可以看到大多数模块都是蓝色的,即都会被冻结,只留下视觉端的一个用于映射模态的线性层参与微调,这种做法可微调的参数压缩到only 15M。

微调策略跟KOSMOS-1一样采取两阶段思路:

  • 第一阶段:采用CC、SBU、LAION等的图文对作为多模态训练数据集。
  • 第二阶段:利用ChatGPT构建一个多模态高质量的数据集。这里高质量数据主要是利用ChatGPT构造出来的,即先利用第一阶段的capti