摘要
我们介绍了一个强大的混合专家(MoE)语言模型DeepSeek-V3,它具有总计671亿个参数和每个令牌激活的37亿个。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,这些架构在DeepSeek-V2中得到了彻底验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并为更强性能设置了多令牌预测训练目标。我们在14.8万亿个多样且高质量的令牌上预训练了DeepSeek-V3,然后进行监督微调和强化学习阶段以充分挖掘其能力。全面评估表明,DeepSeek-V3优于其他开源模型,并达到与领先闭源模型相当的性能。尽管表现出色,但DeepSeek-V3仅需2.788M H800 GPU小时即可完成全量训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或回滚操作。该模型的检查点可在https://github.com/deepseek-ai/DeepSeek-V3 上获取。
DeepSeek-V3 DeepSeek-V2.5 Qwen2.5-72B-Inst Llama-3.1-405B-Inst GPT-40-0513 Claude-3.5-Sonnet-1022100
3 基础设施 11
预训练 4 22
5 培训后 28
1、简介
近