DeepSeek-V3 技术报告 (核心技术,接近5万字)

摘要

我们介绍了一个强大的混合专家(MoE)语言模型DeepSeek-V3,它具有总计671亿个参数和每个令牌激活的37亿个。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构,这些架构在DeepSeek-V2中得到了彻底验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并为更强性能设置了多令牌预测训练目标。我们在14.8万亿个多样且高质量的令牌上预训练了DeepSeek-V3,然后进行监督微调和强化学习阶段以充分挖掘其能力。全面评估表明,DeepSeek-V3优于其他开源模型,并达到与领先闭源模型相当的性能。尽管表现出色,但DeepSeek-V3仅需2.788M H800 GPU小时即可完成全量训练。此外,它的训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值或回滚操作。该模型的检查点可在https://github.com/deepseek-ai/DeepSeek-V3 上获取。
DeepSeek-V3 DeepSeek-V2.5 Qwen2.5-72B-Inst Llama-3.1-405B-Inst GPT-40-0513 Claude-3.5-Sonnet-1022100

image

3 基础设施 11
预训练 4 22
5 培训后 28

1、简介

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值