PyTorch学习系列(十)——如何在训练时固定一些层？

最新推荐文章于 2025-06-23 15:47:30 发布

Vic时代

最新推荐文章于 2025-06-23 15:47:30 发布

阅读量2.5w

点赞数 13

CC 4.0 BY-SA版权

分类专栏：深度学习框架Torch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/VictoriaW/article/details/72779407

本文介绍了在PyTorch中如何在训练过程中保持某些层不变，特别是预训练网络的卷积层。通过设置Variable的`requires_grad=False`或使用`volatile=True`，可以阻止这些层在反向传播时计算梯度，从而只更新顶层的全连接层。`volatile=True`主要适用于推理阶段，减少内存消耗。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时我们会用其他任务（如分类）预训练好网络，然后固定卷积层作为图像特征提取器，然后用当前任务的数据只训练全连接层。那么PyTorch如何在训练时固定底层只更新上层呢？这意味着我们希望反向传播计算梯度时，我们只希望计算到最上面的卷积层，对于卷积层，我们并不希望计算梯度并用梯度来更新参数。
我们知道，网络中的所有操作对象都是Variable对象，而Variable有两个参数可以用于这个目的：requires_grad和volatile。

requires_grad=False

在用户手动定义Variable时，参数requires_grad默认值是False。而在Module中的层在定义时，相关Variable的requires_grad参数默认是True。
在计算图中，如果有一个输入的requires_grad是True，那么输出的requires_grad也是True。只有在所有输入的requires_grad都为False时，输出的requires_grad才为False。

>>>x = Variable(torch.randn(2, 3), requires_grad=True)
>>>y = Variabl

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。