梯度消失/梯度爆炸

沙小菜

已于 2022-08-14 10:38:54 修改

阅读量422

点赞数

CC 4.0 BY-SA版权

文章标签： python 算法机器学习

于 2022-08-14 10:32:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_38262850/article/details/126322863

本文探讨了深度学习中常见的梯度消失与梯度爆炸问题，分析了它们产生的原因，如深层网络结构与不当的激活函数选择，并提出了多种解决策略，包括使用ReLU激活函数、批量归一化及残差结构等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习之3——梯度爆炸与梯度消失 - 知乎

梯度消失和梯度下降原因

梯度消失和梯度爆炸两种情况产生的原因可以总结成2类原因：1.深层网络的结构；2.不合适的损失函数，比如Sigmoid函数。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。

1.深层网络角度：

2.激活函数的角度

如果激活函数的选择不合适，比如使用Sigmoid，梯度消失会很明显。

下图为Logistic函数和Tanh函数的导数，Logistic导数最大的时候也只有0.25，其余时候远小于0.25，因此如果每层的激活函数都为Logistic函数的话，很容易导致梯度消失问题，Tanh函数的导数峰值是1那也仅仅在取值为0的时候，其余时候都是小于1，因此通过链式求导之后，Tanh函数也很容易导致梯度消失。

梯度消失、爆炸的解决方案

1.预训练和微调

2.梯度剪切、正则

梯度剪切又叫梯度截断，是防止梯度爆炸的一种方法，其思想是设置一个梯度剪切阈值，更新梯度的时候，如果梯度超过这个阈值，那就将其强制限制在这个范围之内。

3.relu、leakyrelu、elu等激活函数

从relu的函数特性我们知道，在小于0的时候梯度为0，大于0的时候梯度恒为1，那么此时就不会再存在梯度消失和梯度爆炸的问题了，因为每层的网络得到的梯度更新速度都一样。

4.Batch Normalization(批规范化)

BN层使用在conv层后激活函数前。可以理解为BN将输出从饱和区拉到了非饱和区(比如Sigmoid函数)。

5.残差结构

自从残差网络提出后，几乎所有的深度网络都离不开残差的身影，相比较之前的几层，几十层的深度网络，残差网络可以很轻松的构建几百层而不用担心梯度消失过快的问题，原因在于残差的捷径部分

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。