混合精度加快前向传播的速度

一方面,16 位计算比 32 位计算速度更快。但另一方面,精度的损失会随着时间的推移、一次又一次的运算而累积,从而导致数值问题。或许我们可以鱼(32 位)与熊掌(16 位)兼得?
混合精度(计算)登场!

“加载模型” 摘要
如果你的 GPU 支持,在所有 16 位运算相关场景中,使用 torch.bfloat16 而非 torch.float16。

supported = torch.cuda.is_bf16_supported(including_emulation=False)
dtype16 = (torch.bfloat16 if supported else 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型与Agent智能体

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值