大模型微调所需资源计算

最新推荐文章于 2025-08-14 14:49:18 发布

原创最新推荐文章于 2025-08-14 14:49:18 发布 · 745 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

大模型专栏收录该内容

6 篇文章

订阅专栏

计算「微调大模型到底需要多少显存」时，本质上是把下面 4 大块一次性装进 GPU：

模型权重本身
激活值（前向、反向的中间张量）
梯度
优化器状态

下面给出两条常用「速算公式」和一张对照表，你可以 30 秒内估出「最低/推荐/宽裕」三档显存需求。所有数字单位都是 GB（十进制）。

速算公式 A：全参数微调（Full Fine-Tune）

显存 ≈ 20 × P

P = 参数量（单位：Billion，十亿）
经验系数 20 ≈ 权重(2 byte) + 梯度(2) + Adam 状态(8) + 激活(8)
只适用于 fp16/bf16 + AdamW，无 CPU offload，无 ZeRO-3

例：Llama-3.1-8B → 20 × 8 ≈ 160 GB（必须 4×A100-80G 或 8×A100-40G）

速算公式 B：LoRA/QLoRA 微调（最常用）

显存 ≈ 1.2 × P_base + 0.2 × P_lora

P_base：底座模型参数量
P_lora：LoRA 新增参数量（通常 < 1%）
1.2 系数来自 4-bit 量化权重 + 少量 fp16 激活/梯度

例：Qwen-2.5-7B + LoRA(rank=64)

7 × 1.2 ≈ 8.4 GB（单卡 24G 绰绰有余）
7 × 1.2 + 0.2 × 0.07 ≈ 8.5 GB（LoRA 额外可忽略）

一张对照表：常见模型显存需求

模型	参数量	fp16 全参	LoRA 4-bit	QLoRA 4-bit + ZeRO-3	备注
Qwen-2.5-7B	7 B	140 GB	8 GB	6 GB	单卡 24G OK
Llama-3.1-8B	8 B	160 GB	9 GB	7 GB	单卡 24G OK
DeepSeek-14B	14 B	280 GB	17 GB	12 GB	单卡 48G OK
Qwen-72B	72 B	1440 GB	86 GB	60 GB	需 8×A100-80G

若想把误差压到 ±10%，可用开源计算器：

Model Memory Calculator（Hugging Face）
ZeRO-3 显存计算器（DeepSpeed 官方脚本）

LoRA/QLoRA 场景下，用「1.2 × 参数量 GB」就能快速估算；全参数微调直接乘 20。

博客等级

码龄9年

257
原创

787
点赞

1957
收藏

382
粉丝

关注

私信

热门文章

分类专栏

AIOps 32篇
Python 62篇
大模型 6篇
机器学习 47篇
nlp 63篇
排序算法 9篇
C语言
JDK翻译 5篇
数据库 5篇

展开全部收起

上一篇：: 处理报错：TypeError: embedding(): argument ‘indices‘ (position 2) must be Tensor, not ChatPromptValue

最新评论

使用QWEN2.5-vl的function calling记录
珞喻路小白: https://ollama.com/z-uo/qwen2.5vl_tools和https://github.com/QwenLM/Qwen2.5-VL/issues/914 里面有提到相关知识
几种排序算法总结（六）--快速排序
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)起一个更符合文章内容的标题；(3)增加条理清晰的目录。
whisper 语音识别的安装与使用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619664161。
Celery使用小结
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。