【MLLM系列】LLaVA系列模型

1. 简介

在人工智能领域,多模态大模型的发展日新月异,它们不仅能够处理单一类型的数据,如文本或图像,而且能够同时理解和生成多种类型的数据。其中,LLaVA系列模型——LLaVA、LLaVA 1.5和LLaVA-Next等在多模态开源社区里面有着不小的影响力。本文主要重点介绍LLaVA系列模型,希望能够对整个优化路径有个完整的梳理。

2. Visual Instruction Tuning

2.1 摘要

通过机器生产的指令遵循数据微调LLM是能够在新任务上增强zero-shot能力的。这篇论文主要工作是将指令微调的方式迁移到多模态大模型上。并提出了端到端的多模态大模型LLaVA(Large Language and Vision Assistant)。同时为了更好的评估模型效果,构建了两个兼具多样性和难度的benchmark。

  • 具体贡献:
    • 多模态指令数据:提出了通过GPT4/chatgpt将图文对数据转化为合适的指令遵循数据的方法。
    • 多模态大模型:提出了LLaVA模型,主要将视觉编码器clip与语言模型Vicuna连接在一起,并在多模态指令遵循数据上端到端的微调。
    • 多模态指令遵循benchmark:提出两个benchmark。
    • 开源:多模态指令数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一夜了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值