1. 简介
在人工智能领域,多模态大模型的发展日新月异,它们不仅能够处理单一类型的数据,如文本或图像,而且能够同时理解和生成多种类型的数据。其中,LLaVA系列模型——LLaVA、LLaVA 1.5和LLaVA-Next等在多模态开源社区里面有着不小的影响力。本文主要重点介绍LLaVA系列模型,希望能够对整个优化路径有个完整的梳理。
2. Visual Instruction Tuning
2.1 摘要
通过机器生产的指令遵循数据微调LLM是能够在新任务上增强zero-shot能力的。这篇论文主要工作是将指令微调的方式迁移到多模态大模型上。并提出了端到端的多模态大模型LLaVA(Large Language and Vision Assistant)。同时为了更好的评估模型效果,构建了两个兼具多样性和难度的benchmark。
- 具体贡献:
- 多模态指令数据:提出了通过GPT4/chatgpt将图文对数据转化为合适的指令遵循数据的方法。
- 多模态大模型:提出了LLaVA模型,主要将视觉编码器clip与语言模型Vicuna连接在一起,并在多模态指令遵循数据上端到端的微调。
- 多模态指令遵循benchmark:提出两个benchmark。
- 开源:多模态指令数