本地部署 DeepSeek-R1-671B 满血版大模型

原创

已于 2025-02-20 12:04:25 修改 · 4k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #ai

于 2025-02-17 00:21:10 首次发布

DeepSeek-R1大模型具备深度思考和推理能力，在数学、代码、自然语言推理等任务上都有着极大的提升。一方面由于官方或第三方的在线服务或多或少存在不稳定的问题，另一方面考虑到数据安全和隐私问题，本地私有化部署DeepSeek开源大模型对个人或企业来说也是一种不错的选择。本文主要介绍完整参数版本 deepseek-r1-671b 模型的部署和测试过程，对 deepseek-v3-671b 以及其他更小参数版本的模型同样适用。

前言

DeepSeek-R1 模型的最大参数版本是 671B (6710亿参数)，同时提供 1.5B ~ 70B的小参数蒸馏版本，可根据机器资源选择适合的模型版本。选择的依据主要看显存的大小，一般来说我们需要至少能支持把整个模型文件都加载到显存中，才能完全发挥GPU的计算能力，保证一定的运行速度。

ollama 是一个模型管理的开源框架，可以通过这个工具下载、运行、管理大模型。ollama是目前最简单的本地运行大模型的开源框架，也是本文中使用的框架。在 ollama 的模型仓库中可以查看不同模型需要占用的空间大小：

[外链图片转存中…(img-e6ElGTL5-1740024258203)]

ollama 中的模型默认是经过 INT4量化的，即通过略微损失一定精度来压缩模型文件的大小。根据图中不同参数的模型大小可以看出 1.5b ~ 32b 模型都是有可能在个人电脑中部署运行的。

1.5b模型基本可以在大部分个人电脑甚至手机中运行，如果你有 6G 显存以上，那么可以部署7b模型，如果有16G显存，可以尝试14b的模型。而对于32b的模型，则需要24G显存的显卡，例如 3090 / 4090 系列；70B模型，则需要至少2张24G显存的显卡。如果显存资源不足但内存足够，也可以尝试运行，只不过会使用CPU+GPU混合推理的模式，运行速度相比单纯的GPU模式会下降很多。

注：DeepSeek提供的1.5B ~ 70B的小参数R1模型是通过"蒸馏"产生的。蒸馏是一个知识迁移的过程，以其他开源模型(如qwen、llama)作为基座，用DeepSeek-R1大模型对这些模型进行训练，让这些参数较小的模型学习R1的生成结果、思考过程等，在显著降低模型参数规模的同时能保留一定的性能和精度。