DeepSeek-V3 技术报告（核心技术，接近5万字）

最新推荐文章于 2025-05-22 13:19:19 发布

zhangjiaofa

最新推荐文章于 2025-05-22 13:19:19 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： DeepSeek R1& AI人工智能大模型文章标签： DeepSeek V3

本文链接：https://blog.csdn.net/zhangjiaofa/article/details/145326907

DeepSeek R1& AI人工智能大模型专栏收录该内容

72 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

摘要

我们介绍了一个强大的混合专家（MoE）语言模型DeepSeek-V3，它具有总计671亿个参数和每个令牌激活的37亿个。为了实现高效的推理和成本效益的训练，DeepSeek-V3采用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构，这些架构在DeepSeek-V2中得到了彻底验证。此外，DeepSeek-V3开创了一种无辅助损失的负载平衡策略，并为更强性能设置了多令牌预测训练目标。我们在14.8万亿个多样且高质量的令牌上预训练了DeepSeek-V3，然后进行监督微调和强化学习阶段以充分挖掘其能力。全面评估表明，DeepSeek-V3优于其他开源模型，并达到与领先闭源模型相当的性能。尽管表现出色，但DeepSeek-V3仅需2.788M H800 GPU小时即可完成全量训练。此外，它的训练过程非常稳定。在整个训练过程中，我们没有遇到任何不可恢复的损失峰值或回滚操作。该模型的检查点可在https://github.com/deepseek-ai/DeepSeek-V3 上获取。
DeepSeek-V3 DeepSeek-V2.5 Qwen2.5-72B-Inst Llama-3.1-405B-Inst GPT-40-0513 Claude-3.5-Sonnet-1022100