【错误】训练过程中loss变为nan

重生之我在CUC写代码

于 2025-05-21 10:59:37 发布

阅读量184

点赞数 1

CC 4.0 BY-SA版权

文章标签：深度学习 pytorch 人工智能

本文链接：https://blog.csdn.net/weixin_54098256/article/details/148106767

排查方法：在backward()前面加上torch.autograd.set_detect_anomaly(True)

torch.autograd.set_detect_anomaly(True)
loss.backward()

我报错的原因：输入网络的值为NAN，或存在极端值（过大/过小）

排查方法：打出torch最大值和最小值

print("x_path", x_path.min(), x_path.max(), torch.isnan(x_path).any())

三种解决方法：

删除极端值

进行归一化

将极端值赋值（可能会影响学习的准确率）

wsi_bag = torch.nan_to_num(wsi_bag, nan=0.0)
wsi_bag = torch.clamp(wsi_bag, min=0.0, max=1.0)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

重生之我在CUC写代码

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

模型训练中出现loss为NaN怎么办？

Thomas_Cai的记忆殿堂

07-18

5777

模型训练中出现loss为NaN原因

pytorch torch.nan_to_num函数介绍

qq_27390023的博客

12-13

1531

是 PyTorch 中的一个函数，用于将张量中的特殊浮点值（如NaN+Inf和-Inf）替换为指定的数值，或使用默认替代值。inputNaN+Inf-Infnan(可选)NaN0.0posinf(可选)+Infneginf(可选)-InfNaN+Inf-InfNaNNaNnan+Inf-Infposinfneginf如果没有指定posinf和neginf，函数会使用数据类型的最大或最小值。其中3.4028e+38和分别是float32类型的最大和最小有限值。: 替换缺失值（NaN）或异常值（

参与评论您还未登录，请先登录后发表或查看评论

解决训练过程中前一次迭代的loss正常后一次迭代却出现NAN

shuaijieer的博客

09-16

1468

该怎么办？

今天又遇到了loss为nan的问题

woshixuxiran的博客

11-01

1357

好蠢一bug

torch.autograd.detect_anomaly() 工具的使用（记录）

ybacm的博客

07-04

1万+

正向传播以及反向传播时添加异常侦测，减少找代码bug的时间。

Loss变为NaN怎么办？

天渡漫谈

07-07

1万+

在训练网络的时候，当打印出的日志提示loss变为NaN的时候，是不是整个人都开始抓狂了？相信应该每个算法工程师都遇到过这个令人头秃的问题。本文就是介绍如果遇到loss变成NaN时，如何快速的或者多方面排查原因。一、训练数据有问题比如数据集中就有某些特征的某些取值为NaN，或者label缺失。在一个iteration中batch数据如果没问题，loss正常显示；如果不凑巧，batch数据中恰好有NaN或者label缺失，loss就突然变为NaN了。建议这一步作为排查问题时的Step1。二、梯度爆.

pytorch tensor 张量中数值替换，极小数值极大数值，nan替换，并让他支持梯度

论文数据分析辅导,；论文人工智能辅导 huazhongxiaosx

09-09

427

然后吧变量转成可求导。

【深度学习 】训练过程中loss出现nan

weixin_59422604的博客

01-09

971

[toc]【深度学习 】训练过程中loss出现nan。

神经网络训练过程中出现loss为nan，神经元坏死

joker_xiansen的博客

09-07

6895

最近在手撸Tensorflow2版本的Faster RCNN模型，稍后会进行整理。但在准备好了模型和训练数据之后的训练环节中出现了大岔子，即训练过程中loss变为nan。nan表示not a number类型，任意有关nan的运算结果都将得到nan。这可真是一颗老鼠屎坏了一锅粥，一但一个step中出现loss为nan，所有神经元的参数都将被更新为nan，之后的epochs和step中所有预测结果和模型参数都将为nan。为了弄清楚nan的原因，我检查了每个组件函数以及所用的训练数据是否有误...

matlab损失函数出现nan,[译]在训练过程中loss出现NaN的原因以及可以采取的方法。...

weixin_34163313的博客

03-18

1142

1.梯度爆炸原因：在学习过程中，梯度变得非常大，使得学习的过程偏离了正常的轨迹。症状：观察输出日志(runtime log)中每次迭代的loss值，你会发现loss随着迭代有明显的增长，最后因为loss值太大以致于不能用浮点数去表示，所以变成了NaN。可采取的方法：1.降低学习率，比如solver.prototxt中base_lr，降低一个数量级(至少)。如果在你的模型中有多个loss层，就不能降...

torch.autograd.set_detect_anomaly在mmdetection中的用法

onion_rain的博客

01-31

800

torch.autograd.set_detect_anomaly

全新池化方法AdaPool | 让ResNet、DenseNet、ResNeXt等在所有下游任务轻松涨点

3D视觉工坊

11-19

2547

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达作者丨ChaucerG来源丨集智书童池化层是卷积神经网络的基本构建模块，它不仅可以减少网络的计算开销，还可以扩大卷积操作的感受野。池化...

【深度学习】Loss为Nan的可能原因

passer__jw767的博客

06-11

2565

Loss为Nan的原因分析与解决

loss出现nan原因及解决方法之一

DL_GIS

08-03

5664

在搭建网络时始终有acc，无loss（nan）原因之一：网络输出没有使用softmax进行归一化，导致输出结果含有负数；在使用cross entroy时，由于log计算导致出现nan

enable anomaly detection to find the operation that failed to compute its gradient, with torch.autog

静静的学习就好

07-26

7551

关于pytorch中多个backward出现的问题：enable anomaly detection to find the operation that failed to compute its gradient, with torch.autograd.set_detect_anomaly (True)

[深度学习]pytorch实现sigmoid、softmax、交叉熵loss函数

qq_61897765的博客

10-04

963

入门

模型训练中出现NaN Loss的原因及解决方法