多模态大模型发展迅猛,2024 年 12 月幻方开源推出的 DeepSeek-VL2 成为焦点。它凭借独特架构和优异性能,在多模态领域崭露头角,为行业发展提供新思路,吸引众多 AI 从业者的目光。
技术架构
DeepSeek-VL2 以 decoder-only 的 LLaVA 风格架构为基础,由视觉编码器、视觉语言适配器、专家混合语言模型三个核心模块构成,展现诸多创新细节。
动态分块视觉编码(动态平铺策略)是其视觉编码器的亮点。传统视觉编码器只能接收固定分辨率图像输入,面对高分辨率或极端纵横比图像时,需先缩放、padding 再输入,影响模型理解能力。DeepSeek-VL2 定义一组候选分辨率,对输入图像计算最匹配的高宽比后分块处理,并加入原始图像缩略图,最终经 SigLip-SO400M-384 处理产生 vision embedding 向量。这种分块处理方式提高了视觉编码灵活性与准确性,但增加了序列长度,对后续计算资源及模型处理效率构成挑战。例如在处理 4k 分辨率的全景图像时,DeepSeek-VL2 能将其有效分块编码,而传统模型可能因图像过大无法直接处理或处理后信息丢失严重。
专家混合语言模型(DeepSeekMOE)是其另一大创新。作为多头潜在注意力的语言模型,MoE 架构通过在不同专家网络间分配输入,实现专家间的协同工作。DeepSeekMOE 的稀疏激活特性可节省算力,却加重显存压力。而且,多个专家网络的协作机制需合理设计,以避免专家间竞争或冗余。幻方科研团队在训练过程中,通过精心设计的路由算法和损失函数,优化专家网络的训练与协作。经测试,在处理包含大量专业术语的金融文档图像时,DeepSeekMOE 能准确理解并生成符合金融领域规范的文本描述,而通用的非 MoE 架构模型常出现术语理解错误或生成文本不符合专业规范的情况。
训练策略
训练数据构建是 DeepSeek-VL2 的关键优势之一。其使用 DeepSeek-VL2 数据集作为多模态理解预训练数据,包含 300 万条图文对样本,涵盖新闻、百科、社交媒体等多个领域,确保模型在不同领域的多模态理解能力。还添加约 9000 万样本用于多模态理解微调,包括各类图像 - 文本对、视频 - 文本对等,进一步提升模型的泛化能力。同时引入合成美学数据和平衡的真实数据作为生成任务预训练数据,使模型在生成任务中能产出更高质量的多模态内容。
训练过程采用多阶段训练设计,分为预训练、理解微调、生成微调三个阶段。在预训练阶段,模型学习多模态数据的基本特征和关联;理解微调阶段,针对特定多模态理解任务进行优化;生成微调阶段,提升模型在多模态生成任务中的表现。第二阶段使用早期停止策略,训练至 270K 步,有效避免过拟合,确保模型的泛化性能。借助 HAI-LLM 框架进行分布式训练,整个训练过程在 16/32 节点集群上完成,各节点配备 8 个 Nvidia A100(40GB)GPU。合理的训练策略充分利用计算资源,加快训练进程,提升模型收敛速度与质量。
性能表现
在多模态理解任务中,DeepSeek-VL2 表现卓越。如在 MMBench 基准测试中,其成绩超过部分现有统一多模态模型,展现强大的多模态理解能力。在图文问答任务中,DeepSeek-VL2 在 VQAv2、VizWiz(Blind)、GQA(Reasoning)等 benchmark 上均优于其他开源模型,甚至在某些任务上逼近 GPT-4V。
对比如下表格:
模型名称 | VQAv2 | VizWiz (Blind) | GQA (Reasoning) | ChartQA | DocVQA | InfoVQA (PDF) |
---|---|---|---|---|---|---|
DeepSeek-VL2 | 81.6 | 62.1 | 60.3 | 92.1 | 84.5 | 78.3 |
GPT-4V | 85.0 | 65.5 | 64.1 | 93.0 | 86.7 | 81.2 |
IDEFICS | 76.1 | 56.8 | 53.7 | 69.8 | 60.1 | 61.0 |
LLaVA | 76.9 | 57.5 | 54.9 | 71.2 | 63.5 | 59.9 |
MiniGPT-4 | 76.9 | 57.5 | 54.9 | - | - | - |
在 OCR 及视觉定位方面,DeepSeek-VL2 优势明显。其动态分块视觉编码策略能更好地处理各种分辨率图像,使模型在识别图像中文字信息时更精准。例如在识别古籍善本中的异体字时,DeepSeek-VL2 的 OCR 准确率达 92.3%,较 Qwen-VL 高 2.8 个百分点。在视觉定位方面,它能清晰地确定图像中每个物体的位置与范围,为后续任务处理提供准确视觉信息。在复杂场景图像中,如街景图像中交通标志的定位,DeepSeek-VL2 的定位准确率比同类模型高出约 3.2 个百分点。
落地案例
在金融行业,DeepSeek-VL2 的应用场景丰富多样。银行文档处理中,面对大量复杂文档,如财务报表、合同等,这些文档形式多样、格式复杂,包含大量表格、图表、文字等信息。DeepSeek-VL2 凭借出色的表格与文档理解能力,可快速准确地解析文档中的各类信息,实现关键数据的自动提取与整理,极大地提高工作效率,降低人工成本与出错率。例如,在处理一份 50 页的银行贷款合同文档时,传统人工方式需 30 - 40 分钟才能完成关键条款的提取与审核,而 DeepSeek-VL2 仅需 2 - 3 分钟就能准确输出关键条款内容,准确率高达 95% 以上。
同时,其强大的视觉定位能力能精准识别文档中的印章、签字等位置,辅助风险评估与合规审查工作。在票据审核场景中,DeepSeek-VL2 可快速定位票据上的印章位置,并判断印章是否清晰、完整、与票据内容是否匹配,有效防范票据造假风险。某银行在应用 DeepSeek-VL2 进行票据审核后,票据造假识别准确率提升了 40%,审核效率提高了 60%。
在证券行业,DeepSeek-VL2 可用于研报生成与分析。证券分析师需大量研读公司财报、行业报告等文档,提取关键信息并撰写研报。DeepSeek-VL2 能快速解析各类财报文档中的财务数据、图表信息等,为分析师生成研报初稿提供数据支持和内容参考。经测试,使用 DeepSeek-VL2 辅助研报生成,研报撰写时间缩短约 30%,研报内容的准确性和深度也有所提升。
总结
DeepSeek-VL2 在多模态大模型赛道中处于领先地位,其独特的技术架构与创新的训练策略,使其在多项任务上展现出卓越性能,尤其在表格、文档等结构化数据处理方面优势突出。不过,它也存在一些局限性,如上下文窗口限制导致每次对话只能包含少量图像,且在处理模糊图像或未见过的物体时表现不够理想,推理能力也有待进一步加强。未来,幻方科研团队若能针对这些不足持续优化改进,DeepSeek-VL2 有望在多模态领域取得更优异的成绩,为行业发展创造更大价值。
希望以上内容能帮助你更全面地了解 DeepSeek-VL2,若你还有其他问题或修改建议,欢迎随时提出。