简介
- DeepSeek-V3:发布于2024年12月,第三代模型,性能强劲。通过FP8混合精度训练、无辅助损失负载均衡等技术创新,V3实现了高效训练与推理,并支持128K长上下文处理。生成速度从V2的20 TPS提升至60 TPS,速度提升3倍。V3在知识问答、长文本处理、代码生成等领域表现超越其他开源模型,并在数学竞赛中超越闭源模型如GPT-4。该模型推出后,成为开放源代码模型中的领跑者。
- DeepSeek-R1:专注于推理能力的模型,通过强化学习与多阶段训练流程深度优化。包括DeepSeek-R1-Zero,完全基于强化学习训练的早期版本;DeepSeek-R1-32B,有320亿参数,可在24GB显存显卡上流畅运行;DeepSeek-R1-8B,有80亿参数,适用于8GB显存显卡。
部署在自己本地需要耗费巨大的计算资源,我们可以选择调用别人部署好的模型api,从而专注于搭建大模型应用。本文提供了3种调用api的方式,并且都有提供方都赠送了免费的百万token额度,以供我们初期体验测试。