一、部署模式选择
此次通过ollama部署DeepSeek大模型,首页点击Models,选择deepseek-r1模型下载并安装。
-
1.5b:
-
配置需求:
-
GPU: 1-2 张消费级 GPU(如 NVIDIA RTX 3090/4090 或 Tesla T4)。
-
显存: 8-16 GB(FP16 精度)。
-
内存: 32 GB RAM。
-
存储: 10-20 GB 磁盘空间。
-
-
适用于边缘设备或轻量级任务(如聊天机器人、文本生成)。推理速度快,延迟低,可在 CPU 上勉强运行。支持微调和轻量化部署。
-
-
7b:
-
配置需求:
-
GPU: 1 张专业级 GPU(如 NVIDIA A10/A100 24GB)。
-
显存: 16-24 GB(FP16 精度)。
-
内存: 64 GB RAM。
-
存储: 30-50 GB 磁盘空间。
-
-
通用场景的平衡选择(如多轮对话、复杂文本生成)。需要更高带宽的显存(如 HBM2)。可结合量化(如 GPTQ/AWQ)降低显存占用。
-
-
8b:
-
配置需求:
-
GPU: 1 张专业级 GPU(如 NVIDIA A100 40GB)。
-
显存: 24-32 GB(FP16 精度)。
-
内存: 64 GB RAM。
-
存储: 40-60 GB 磁盘空间。
-
-
性能接近 7B 但参数量稍高,适合需要更高精度的任务。可能需要模型并行或显存优化技术(如 FlashAttention)。
-
-
14b:
-
配置需求:
-
GPU: 2 张专业级 GPU(如 NVIDIA A100 40GB) + NVLink。
-
显存: 2×40 GB(FP16 精度)。
-
内存: 128 GB RAM。
-
存储: 80-100 GB 磁盘空间。
-
-
适合企业级复杂任务(如长文本生成、代码生成)。需多卡并行(模型并行或流水线并行)。推理延迟较高,需优化计算效率。
-
-
32b:
-
配置需求:
-
GPU: 4-8 张专业级 GPU(如 NVIDIA H100/A100) + 高速互联(NVLink/InfiniBand)。
-
显存: 4×80 GB(FP16 精度)。
-
内存: 256 GB RAM。
-
存储: 200-300 GB 磁盘空间。
-
-
接近大模型的性能,适合高精度需求场景(如科研、金融分析)。必须分布式训练/推理,需深度学习框架(如 DeepSpeed、Megatron-LM)支持。显存和计算资源消耗大,成本高
-
-
70b:
-
配置需求:
-
GPU: 8+ 张专业级 GPU(如 NVIDIA H100) + 高速集群。
-
显存: 8×80 GB(FP16 精度)。
-
内存: 512 GB RAM。
-
存储: 500 GB+ 磁盘空间
-
-
对标业界顶尖模型(如 LLaMA-2 70B、GPT-3.5),需大规模算力。依赖分布式训练和混合并行(数据并行+模型并行+流水线并行)。仅适合云服务或超算中心部署。
-
-
671b:
-
配置需求:
-
GPU: 数百张专业级 GPU(如 NVIDIA H100)组成的集群 + 高速网络(InfiniBand)。
-
显存: 分布式显存池(TB 级)。
-
内存: 数 TB RAM。
-
存储: 10 TB+ 磁盘空间。
-
-
超大规模模型(如 GPT-4、Claude-2),仅科技巨头或国家级实验室可部署。依赖定制化框架和基础设施(如 TPU Pod、GPU 超级集群)。推理成本极高,主要用于研究或商业 API 服务。
-
二、模型部署
选择一个要部署的模型,复制命令,win+R 输入CMD命令,将命令粘贴并执行
三、运行模型
cmd输入 ollama list 可查看安装的模型。
使用 ollama run 模型名称 可运行大模型。
ps:部署8b以下的版本时,会遇到一些问题,大模型会产生一些幻觉:有时候会出现答非所问的情况,这是没法避免的弊端。想要更精准的回答需部署更高版本的大模型。