低成本单机多卡微调方案实战指南：Windows系统+双4070显卡+LLaMA-Factory微调7B大模型

最新推荐文章于 2025-07-30 18:01:08 发布

原创

最新推荐文章于 2025-07-30 18:01:08 发布 · 1.3k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #ubuntu #linux #pytorch #conda

【真实项目复盘】从显卡困局到双4070显卡极限突围
【显卡党必看】双4070显卡血泪教程：从炸显存到跑通7B模型的生死线
Windows 11双显卡部署LLaMA-Factory：4070显卡显存溢出终极解决方案
WSL2下微调避坑指南：双4070显卡跑通Qwen2.5-7B-Instruct的4bit量化实录
LLaMA-Factory实战：12G显存显卡用量化压缩玩转3B/7B大模型

“本以为双4070就能硬刚7B模型，结果Windows下双卡并行都炸了…过程中各种报错，各种查原因，问了Deepseek，又问gpt，再问豆包，再问搜索引擎，所有有名大模型都问了，都搜了，解决方案屈指可数啊，花三天踩穿各种环境陷阱、显存陷阱，最终靠WSL2+量化压缩实现反杀！操作过程从头整理如下：”

有图有真相,双4070并行微调，双12G显存全部100%占满
在这里插入图片描述

设备数量2，训练完毕，完全在webui操作执行
在这里插入图片描述

一、从头说起：当企业级需求撞上消费级显卡

大模型有大模型的用处，小模型有小模型的用处，项目需要，考虑小参数模型解决基本问题即可：

现状：

预算限制无法采购A100/H100等专业卡

现有工作站配备双4070（12G×2）消费级显卡

需求：微调3B-7B量级大模型用于项目基本应用场景

Windows：

版本 Windows 11 专业版

处理器 Intel® Core™ Ultra 7 265K 3.90 GHz

机带 RAM 128 GB (127 GB 可用)

系统类型 64 位操作系统, 基于 x64 的处理器

显卡（nvidia-smi）

二、Windows多卡并行血泪史：从希望到绝望

初次尝试：直接执行LLaMA-Factory

按照LLaMA-Factory指南直接安装，自动识别设备数为2      
下载速度慢，就执行这个源，pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e ".[torch,metrics]"


# 之后就开始做微调，但是报错，报错现场还原，如下：
[2025-05-01 20:35:10,200] [INFO] [real_accelerator.py:239:get_accelerator] Setting ds_accelerator to cuda (auto detect)
W0501 20:35:10.995000 28028 site-packages\torch\distributed\elastic\multiprocessing\redirects.py:29] NOTE: Redirects are currently not supported in Windows or MacOs.
[INFO|2025-05-01 20:35:13] llamafactory.cli:143 >> Initializing 2 distributed tasks at: 127.0.0.1:59858
W0501 20:35:15.140000 20420 site-packages\torch\di