大模型精度全解析：FP32、FP16、TF32、BF16与混合精度深入探讨

最新推荐文章于 2025-07-16 13:48:34 发布

AI大模型-王哥

最新推荐文章于 2025-07-16 13:48:34 发布

阅读量1k

点赞数 21

CC 4.0 BY-SA版权

文章标签：人工智能学习 AI 程序员 AI大模型大模型大模型入门

本文链接：https://blog.csdn.net/2401_84204413/article/details/147633345

模型训练和推理的速度随着大模型的到来变得越来越重要，减小计算过程中数据的长度从而降低存储和带宽，是提升速度的一个重要方法。因此，我花精力学习和整理了常见的各种精度细节，避免囫囵吞枣。

1 从FP32说起

计算机处理数字类型包括整数类型和浮点类型，IEEE 754号标准定义了浮点类型数据的存储结构。一个浮点数由三部分组成，以最常见的FP32(Float Point 32)为例：

图1. FP32位数分配，来源[2]

Sign：最高位用1位表示符号位，1表示负数，0表示正数，记为S
Exponent：中间8位表示指数位，记为E
Mantissa：低位23位表示小数部分，记为M

我们以十进制数9.625为例，看看十进制和FP32二进制之间如何转换：

十进制–》二进制

先分为整数部分9和小数部分0.625。

9转为二进制1001，0.625通过乘以2取整数部分，剩余小数部分再乘以2取整数部分不断循环的方法，得到0.101，合起来就是1001.101，写成2进制指数形式为1.001101*2^3。

根据IEEE 754的规范，FP32的指数部分要加127偏移，调整为3+127=130，对应二进制为10000010，小数部分001101后面补齐为23位后，符号位为0，三个部分拼起来就是

0 10000010 00110100000000000000000。

使用转换工具验证，正确！工具的上面把三个部分都表示出来了，复选框打勾表示对应位置二进制数为1，否则为0。

图2. FP32转换工具，来源[3]

二进制–》十进制

直接把上面这个步骤反过来为例，把二进制分为三个部分S、E、M，FP32转换为十进制的公式为：

其中1.M表示小数部分的二进制表示，上述例子具体为S=0，E二进制10000010转为十进制为130，M为00110100000000000000000,1.M小数部分后面的0没用直接去掉，实为1.001101（二进制），转为十进制为：

顺利还原回了十进制数。

FP32搞清楚了，FP16、FP64类似，只是指数位和小数位的长度不一样：

类型	符号位长度	指数位长度	小数位长度	偏移
半精度 FP16	1	5	10	15
单精度 FP32	1	8	23	127
双精度 FP64	1	11	52	1023

2 模型训练中不同精度的问题

首先对比FP32和FP64，由于一个FP32浮点数只占32位，和FP64比有明显的优势：

减少存储使用：模型训练显存大小是关键，FP32只占用一半的存储，同样的GPU可以训练更大的模型，或者同样的模型batch_size可以更大；
提高训练速度：同样的两个数进行计算，FP32由于位数少，计算量更小，可以降低计算时间。

同样的道理适用于FP16和FP32的对比，但是否意味着我们都使用FP16就行了？当然不是，主要原因是位数少同时有两个劣势：

位数少时精度比位数多时低，可能导致准确度不够；
位数少时表示的范围比位数多时要小，可能导致数据溢出，装不下了。

先看看精度问题，以下是用FP64、FP32、FP16表示1/3时不同的精度：

精度越高，数据表示和计算越准确，模型训练拟合出来的参数更精准，这个需要看我们对具体模型精度的要求。

再看表示的范围，通过pytorch的接口，我们看看FP32和FP16能表示的数的范围：

我们用一个大数10^6看看二者能否表示：

显然10^6已经超过了FP16能支持的范围，无法处理。如果模型的某些参数超过了65504，就无法用FP16表达了。

3 混合精度

既然FP32和FP16长短各有优缺点，那我们就可以采取混合使用的方法，在模型训练的不同步骤使用不同的精度：

图3. 混合精度使用流程，来源[1]

把神经网络权重参数由初始化的FP32转为FP16；
用FP16进行前向和后向计算，并进行梯度计算；
把FP16的梯度转为FP32；
使用FP32的梯度和学习率learning rate相乘；
使用FP32更新网络权重，得到FP32的更新后的权重。

以上步骤不断循环进行。简单来讲就是使用梯度更新权重的时候用FP32，因为梯度乘上学习率后一般数值都比较小，使用FP32能防止精度不够。

混合使用精度的时候，有一个**“****损失缩放”**的技术，在反向计算前，将得到的损失扩大一个倍数，避免数据太小精度不够变为0了，扩大后在FP16可表达的范围内，反向计算后，再把梯度缩小同样的倍数，确保最后数值是对的。

资料[1]使用DistilBERT模型进行了一个电影情感分类任务微调，对比了单独使用FP32、FP16和混合使用的性能及准确率：

图4. FP32、FP16和混合精度训练对比，来源[1]

从图4可以看出，混合精度训练时间和FP16接近，为FP32的1/3，使用的存储间于二者之间，但预测准确率和FP32类似，甚至比FP32还高，作者说了高可能是因为使用了正则化的原因，FP16的预测准确率低很多，应该是训练中发生了数据溢出，模型已经不准了。

4 BF16、TF32

FP16的指数位只有5位，小数位10位，能表示的整数范围有点小，于是谷歌为了深度学习特别是他们的TPU定义了一种新的格式Brain Floating Point 16，简称BF16。和FP16比，总长度都是16位，只是把指数由5位变为了8位（和FP32一样，能有其相同的整数范围），小数位数缩短到了7位。

英伟达根据其GPU的需要定义了TF32，指数位8位（和FP32、BF16一样），小数位10位（和FP16一样，比BF16长），其实就是比BF16多了3个小数位。

图5. BF16、TF32位数，来源：英伟达白皮书

资料[1]对除了TF32之外的所有类型以及混合精度做了对比，仍然使用之前相同的任务：

图6. 各种精度综合对比

可以看出，BF16是时间最短（和FP16相当，因为长度都是16位）、使用存储最少（小数位少）、准确率最高（主要是和其他几个92%的同一水平，可能其他因素会导致微小偏差）。

到此结束，我们搞清楚了各种浮点类型的定义、转换、模型训练时如何使用，以及性能对比。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述