RuntimeError: cudnn RNN backward can only be called in training mode

最新推荐文章于 2024-03-25 11:47:33 发布

沉迷单车的追风少年

最新推荐文章于 2024-03-25 11:47:33 发布

阅读量2.4k

点赞数 12

CC 4.0 BY-SA版权

分类专栏：经验问题汇总文章标签： rnn 神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41895747/article/details/119361166

经验问题汇总专栏收录该内容

163 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在使用深度学习的RNN时遇到`RuntimeError: cudnn RNN backward can only be called in training mode`的问题。分析原因在于反向传播时模型处于非训练状态。尝试了网上多种解决方案无效，最终在训练开始前设置模型为训练模式成功解决。同时提醒注意代码中可能触发非train状态的部分，如评估模式或GPU张量管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：

RuntimeError: cudnn RNN backward can only be called in training mode

问题分析：

原因是反向传播的时候不能是非train状态。

我的代码里面在反向传播之前加了个Alexnet，Alexnet计算loss后会自己反向传播，此时在整体LSTM反向传播的时候就会出现这个非train状态的问题。

解决：

百度一下：

第一页的方法我都试过，全都没有用。。。

彻底解决：

在开始训练之前加上：

torch.backends.cudnn.enabled=False

即可彻底解决！！！

更新：

刚才那种方法只能强行改变当前模型的状态，最核心的问题还是代码出现了bug，仔细查一查train的过程中有哪些地方触发了非train状态。常见的是触发了evaluation状态。

一种好的调试方法是每次循环进入train的时候记录当前epoch并将其打印出来，如果处于非train，往往会导致多次重复进入循环。

如果此时有张量保存在GPU，往往也会先造成显存爆炸！！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沉迷单车的追风少年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。