DeepSeek-VL论文阅读和整理

一、DeepSeek的亮点分析

1. 数据方面

提供了大量的开源数据集的整合,如果想要构建开源数据集,可以从这篇文章的数据部分着手依次收集。

提供了VL的训练需要纯文本语料的思路,之前的VL训练,无论是预训练还是微调都着重于多模态数据集的训练;这里通过实验发现必须保证纯文本训练数据,才能保证大语言模型性能不衰退,通过实验,大致确认了图文对和纯文本的训练比例在3:7上。

和llava系列不同,DeepSeek-VL有大量的自有数据的参与,这和Qwen类似。如果需要构建特殊方向的能力,大量的自有数据是有必要的。

2. 模型结构

视觉模型可以处理1024*1024的输入,并且在一个固定的token budget,且计算的训练代价较低。

亮点分析:

1. 首先指出了传统的视觉编码器存在的输入像素问题,一般的clip基础的视觉编码大模型输出的分辨率都比较低,最高位512*512,这种输入无法处理图像的微小细节,也无法实现富文本OCR的识别。

2. 这里采用的策略和Vary类似,额外叠加一个高分辨率的视觉编码器,然后让图片分别通过原始的低像素视觉编码器和新的高分辨率视觉编码器。将两个视觉编码器的输入embedding统一到同一个维度之后进行concat操作,实现高像素和低像素信息的融合。

3.训练策略

整理的训练首先从语言模型开始,在VL的预训练中,从头开始训练LLM模型,然后仔细控制视觉训练和语言训练两个模态。

在传统的两阶段训练中,第一阶段用于对齐图像编码器输入的embedding空间和大语言模型输入的embedding输入空间。在这个阶段中,往往只训练视觉适配器,而冻结视觉编码器和大语言模型。在第二阶段,用于训练全量的模型参数。

和传统的两阶段训练方式不同,这里的训练分为三个阶段。

第一阶段和传统的第一阶段类似,用大量的图文对训练视觉适配器,对齐视觉embedding特征和大语言模型的输入embedding空间。第二阶段是联合训练语言能力和多模态能力,用大量的图文交互对和纯文本语料训练视觉适配器和大语言模型,目标是不降低大语言模型的能力。第三阶段是进行全量参数的微调训练,让模型更好的适配chat环境。

对VL的训练工作提出的挑战

  1. 数据的整合方面,DEEPSEEK数据规模之大,令人咋舌。以第一阶段的视觉对齐来说,DEEPSEEK采用了3750K数据量,而LLava1.5第一阶段的训练量仅为550K。
  2. 自研数据方面的整合需要加速,如果需要提升表格和图表理解方面的能力,这部分的训练数据整合需要着重增强。
  3. 训练代码方面,目前论文自身的多模态训练框架和代码编写的能力有待通过实践增强。

二、简介

为啥要搞多模态?现有的方法有什么问题?

  1. 本文更加注重预训练阶段。开源的多模态解决方案在指令调优阶段分配了大量计算资源。然而,强大的语言模型训练经验强调了通用智力发展中的广泛预训练的重要性。为了赋予多模态模型丰富的世界知识,应重视利用广泛视觉语言数据的全面预训练。
  2. 学术数据集可以在调优阶段提升模型的学术指标,但是对于真实的用户对话场景来说,效果不好。在指令调优过程中,合并各种学术数据集是一种常见做法。尽管这种方法可能带来良好的基准测试结果,但通常在提供真实现实用户场景的使用体验方面表现不足。
  3. 过去的方法在视觉模型上不支持高分辨率。在模型架构方面,先前的研究通常采用文本对齐的视觉变换器,也就是视觉模型的输出通常对齐于基于预训练的语言模型。然而,大多数这些模型处理的分辨率相对较低,例如336×336或448×448。复杂现实世界场景,如图象字符识别OCR或微小物体辨识,需要高分辨率处理能力。
  4. 过去的方法没有保持住LLM的语言能力。一些模型(如01-ai,2024年;Lin 等人,2023年;Sun 等人,2023年;Wang 等人,2023b年)已经开始利用预训练。然而,它们往往忽视了语言技能的保持。在长时间的多模态训练后,语言能力往往会下降。由于论文的目标是培养一个在两种模态上都具有强大能力的通才,因此在发展新模态能力时,应该有一个训练策略,以保持语言能力。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值