LLM系列：大模型训练如何计算显存占用

原创已于 2025-01-22 18:06:03 修改 · 511 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-01-08 18:58:52 首次发布

大模型专栏收录该内容

26 篇文章

订阅专栏

FP32：32Bit，4个字节
FP16：32Bit，2个字节

1. 输入输出

batch_szieSequencehidden size * 2/1024/1024
一条的大小约为20M
可忽略不计

2. 模型参数

以Llama13B为例，1B= $1000^3$ ，1GB= $1024^3$ byte FP16：13*2=26GB

3. 优化器

以Adam为例，需要保存梯度动量和二阶矩，而且是FP32，占用了13*4=52GB。‘

优化器必须使用FP32,防止小数相加sum或者mean操作后，变为0等问题。
并且还要保存模型参数13*4=52GB
一共需要156GB

4. 激活值

为了梯度传播，前向传播的激活值都要保存。这一部分与batch_size有关。

5. 梯度值

梯度使用FP16，一共13*2=26B

在这里插入图片描述
除了输入输出，激活值跟batchsize有关，其他一般都较为固定。一般显存占用就是8倍的模型大小。也可以直接使用多少B16，例如13B模型，约等于1316=208。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

volcanical 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。