【Torch】解决tensor参数有梯度，weight不更新的若干思路

最新推荐文章于 2023-03-03 01:26:58 发布

lwgkzl

最新推荐文章于 2023-03-03 01:26:58 发布

阅读量1w

点赞数 19

CC 4.0 BY-SA版权

分类专栏： Pytorch 文章标签： python 深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lwgkzl/article/details/110086804

Pytorch 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了如何排查并解决在PyTorch中nn.Parameter参数权重不更新的问题，涉及梯度检查、学习率调整、参数序列检查等关键步骤，帮助开发者定位并修复此类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：

在torch类里面用nn.Parameter声明了一个可学的Tensor参数，结果每次梯度回传之后，可以看到变量梯度，但是该参数的weight始终不变，一直保持着初始值。

思路：

遇到某参数的weight一直不更新，解决思路有以下几种：

1. 检查该变量的梯度是否为0或者为None，对于pytorch的中间变量，输出梯度的方式见博客： https://www.jianshu.com/p/ad66f2e38f2f

如果是None或者0，说明梯度没有传到该变量，顺着代码往下一直输出变量的梯度，直到梯度出现为止，然后检查为啥梯度消失了。

2. 输出梯度后，检查梯度乘上学习率是否过小，比如梯度为5e-2，学习率为1e-4，而变量的值只保留五位小数，那么此时由于学习率过小使得更新被变量忽略，需要把学习率调高。

3. 检查该变量是否在optimal step函数之前被替换，即梯度回传之后， step函数之前，该参数被重新赋值。

4. 最重要的是，检查参数所在的类，是否加入了optimal的优化参数序列中：(，不然梯度虽然回传了，但优化器并不会对你的参数产生反应。

如果是一个模型类的列表：请不要用list类型，使用nn.ModuleList ，如果一个list中包含了三个A类，把list作为B类的参数的时候(在init函数中赋值)，那么这个list里面所有的参数(A类中的参数)都不会被优化，使用nn.ModuleList可以避免这一点。

大概尝试的思路就这么多，有遗漏的请路过大佬在评论区指正。

如上

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。