深入解析:DeepSeek-VL2 在多模态大模型赛道中处于什么水平?

多模态大模型发展迅猛,2024 年 12 月幻方开源推出的 DeepSeek-VL2 成为焦点。它凭借独特架构和优异性能,在多模态领域崭露头角,为行业发展提供新思路,吸引众多 AI 从业者的目光。

技术架构

DeepSeek-VL2 以 decoder-only 的 LLaVA 风格架构为基础,由视觉编码器、视觉语言适配器、专家混合语言模型三个核心模块构成,展现诸多创新细节。

动态分块视觉编码(动态平铺策略)是其视觉编码器的亮点。传统视觉编码器只能接收固定分辨率图像输入,面对高分辨率或极端纵横比图像时,需先缩放、padding 再输入,影响模型理解能力。DeepSeek-VL2 定义一组候选分辨率,对输入图像计算最匹配的高宽比后分块处理,并加入原始图像缩略图,最终经 SigLip-SO400M-384 处理产生 vision embedding 向量。这种分块处理方式提高了视觉编码灵活性与准确性,但增加了序列长度,对后续计算资源及模型处理效率构成挑战。例如在处理 4k 分辨率的全景图像时,DeepSeek-VL2 能将其有效分块编码,而传统模型可能因图像过大无法直接处理或处理后信息丢失严重。

专家混合语言模型(DeepSeekMOE)是其另一大创新。作为多头潜在注意力的语言模型,MoE 架构通过在不同专家网络间分配输入,实现专家间的协同工作。DeepSeekMOE 的稀疏激活特性可节省算力,却加重显存压力。而且,多个专家网络的协作机制需合理设计,以避免专家间竞争或冗余。幻方科研团队在训练过程中,通过精心设计的路由算法和损失函数,优化专家网络的训练与协作。经测试,在处理包含大量专业术语的金融文档图像时,DeepSeekMOE 能准确理解并生成符合金融领域规范的文本描述,而通用的非 MoE 架构模型常出现术语理解错误或生成文本不符合专业规范的情况。

训练策略

训练数据构建是 DeepSeek-VL2 的关键优势之一。其使用 DeepSeek-VL2 数据集作为多模态理解预训练数据,包含 300 万条图文对样本,涵盖新闻、百科、社交媒体等多个领域,确保模型在不同领域的多模态理解能力。还添加约 9000 万样本用于多模态理解微调,包括各类图像 - 文本对、视频 - 文本对等,进一步提升模型的泛化能力。同时引入合成美学数据和平衡的真实数据作为生成任务预训练数据,使模型在生成任务中能产出更高质量的多模态内容。

训练过程采用多阶段训练设计,分为预训练、理解微调、生成微调三个阶段。在预训练阶段,模型学习多模态数据的基本特征和关联;理解微调阶段,针对特定多模态理解任务进行优化;生成微调阶段,提升模型在多模态生成任务中的表现。第二阶段使用早期停止策略,训练至 270K 步,有效避免过拟合,确保模型的泛化性能。借助 HAI-LLM 框架进行分布式训练,整个训练过程在 16/32 节点集群上完成,各节点配备 8 个 Nvidia A100(40GB)GPU。合理的训练策略充分利用计算资源,加快训练进程,提升模型收敛速度与质量。

性能表现

在多模态理解任务中,DeepSeek-VL2 表现卓越。如在 MMBench 基准测试中,其成绩超过部分现有统一多模态模型,展现强大的多模态理解能力。在图文问答任务中,DeepSeek-VL2 在 VQAv2、VizWiz(Blind)、GQA(Reasoning)等 benchmark 上均优于其他开源模型,甚至在某些任务上逼近 GPT-4V。

对比如下表格:

模型名称VQAv2VizWiz (Blind)GQA (Reasoning)ChartQADocVQAInfoVQA (PDF)
DeepSeek-VL281.662.160.392.184.578.3
GPT-4V85.065.564.193.086.781.2
IDEFICS76.156.853.769.860.161.0
LLaVA76.957.554.971.263.559.9
MiniGPT-476.957.554.9---

在 OCR 及视觉定位方面,DeepSeek-VL2 优势明显。其动态分块视觉编码策略能更好地处理各种分辨率图像,使模型在识别图像中文字信息时更精准。例如在识别古籍善本中的异体字时,DeepSeek-VL2 的 OCR 准确率达 92.3%,较 Qwen-VL 高 2.8 个百分点。在视觉定位方面,它能清晰地确定图像中每个物体的位置与范围,为后续任务处理提供准确视觉信息。在复杂场景图像中,如街景图像中交通标志的定位,DeepSeek-VL2 的定位准确率比同类模型高出约 3.2 个百分点。

落地案例

在金融行业,DeepSeek-VL2 的应用场景丰富多样。银行文档处理中,面对大量复杂文档,如财务报表、合同等,这些文档形式多样、格式复杂,包含大量表格、图表、文字等信息。DeepSeek-VL2 凭借出色的表格与文档理解能力,可快速准确地解析文档中的各类信息,实现关键数据的自动提取与整理,极大地提高工作效率,降低人工成本与出错率。例如,在处理一份 50 页的银行贷款合同文档时,传统人工方式需 30 - 40 分钟才能完成关键条款的提取与审核,而 DeepSeek-VL2 仅需 2 - 3 分钟就能准确输出关键条款内容,准确率高达 95% 以上。

同时,其强大的视觉定位能力能精准识别文档中的印章、签字等位置,辅助风险评估与合规审查工作。在票据审核场景中,DeepSeek-VL2 可快速定位票据上的印章位置,并判断印章是否清晰、完整、与票据内容是否匹配,有效防范票据造假风险。某银行在应用 DeepSeek-VL2 进行票据审核后,票据造假识别准确率提升了 40%,审核效率提高了 60%。

在证券行业,DeepSeek-VL2 可用于研报生成与分析。证券分析师需大量研读公司财报、行业报告等文档,提取关键信息并撰写研报。DeepSeek-VL2 能快速解析各类财报文档中的财务数据、图表信息等,为分析师生成研报初稿提供数据支持和内容参考。经测试,使用 DeepSeek-VL2 辅助研报生成,研报撰写时间缩短约 30%,研报内容的准确性和深度也有所提升。

总结

DeepSeek-VL2 在多模态大模型赛道中处于领先地位,其独特的技术架构与创新的训练策略,使其在多项任务上展现出卓越性能,尤其在表格、文档等结构化数据处理方面优势突出。不过,它也存在一些局限性,如上下文窗口限制导致每次对话只能包含少量图像,且在处理模糊图像或未见过的物体时表现不够理想,推理能力也有待进一步加强。未来,幻方科研团队若能针对这些不足持续优化改进,DeepSeek-VL2 有望在多模态领域取得更优异的成绩,为行业发展创造更大价值。

希望以上内容能帮助你更全面地了解 DeepSeek-VL2,若你还有其他问题或修改建议,欢迎随时提出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值