Batch Normalization层的原理与作用

最新推荐文章于 2025-07-02 17:54:27 发布

陈洪伟

最新推荐文章于 2025-07-02 17:54:27 发布

阅读量1.2w

点赞数 11

CC 4.0 BY-SA版权

分类专栏： Deep Learning

原文链接：https://zhuanlan.zhihu.com/p/75603087

Deep Learning 专栏收录该内容

47 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

Batch Normalization层通过数据归一化加速神经网络的收敛，防止梯度消失和爆炸，以及减少过拟合。它通常应用于线性层和卷积层之后，因为这些层的输出分布更稳定，有利于归一化处理。BN层通过计算每批数据的均值和方差，调整数据分布，使得网络训练更加高效和稳定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Batch Normalization层其实就是对数据进行归一化，

具体做法就是，首先求每一batch数据的平均值和方差，然后将数据减去均值，然后除以方差，然后再增加两个参数，BN层主要有下面三个作用

1.加快收敛速度：在深度神经网络中中，如果每层的数据分布都不一样的话，将会导致网络非常难收敛和训练，而如果把每层的数据都在转换在均值为零，方差为1 的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。

2.防止梯度爆炸和梯度消失：

以sigmoid函数为例，sigmoid函数使得输出在[0,1]之间，实际上当x道了一定的大小，经过sigmoid函数后输出范围就会变得很小：

梯度消失：在深度神经网络中，如果网络的激活输出很大，其对应的梯度就会很小，导致网络的学习速率就会很慢，假设网络中每层的学习梯度都小于最大值0.25，网络中有n层，因为链式求导的原因，第一层的梯度将会小于0.25的n次方，所以学习速率相对来说会变的很慢，而对于网络的最后一层只需要对自身求导一次，梯度就大，学习速率就会比较快，这就会造成在一个很深的网络中，浅层基本不学习，权值变化小，而后面几层网络一直学习，后面的网络基本可以表征整个网络，这样失去了深度的意义。（使用BN层归一化后，网络的输出就不会很大，梯度就不会很小）

梯度爆炸：第一层偏移量的梯度=激活层斜率1x权值1x激活层斜率2x…激活层斜率(n-1)x权值(n-1)x激活层斜率n，假如激活层斜率均为最大值0.25，所有层的权值为100，这样梯度就会指数增加。（使用bn层后权值的更新也不会很大）

3.防止过拟合：在网络的训练中，BN的使用使得一个minibatch中所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果，即同样一个样本的输出不再仅仅取决于样本的本身，也取决于跟这个样本同属一个batch的其他样本，而每次网络都是随机取batch，这样就会使得整个网络不会朝这一个方向使劲学习。一定程度上避免了过拟合。

Q: 为什么BN层一般用在线性层和卷积层后面，而不是放在非线性单元后

因为非线性单元的输出分布形状会在训练过程中变化，归一化无法消除他的方差偏移，相反的，全连接和卷积层的输出一般是一个对称,非稀疏的一个分布，更加类似高斯分布，对他们进行归一化会产生更加稳定的分布。其实想想也是的，像relu这样的激活函数，如果你输入的数据是一个高斯分布，经过他变换出来的数据能是一个什么形状？小于0的被抑制了，也就是分布小于0的部分直接变成0了，这样不是很高斯了

https://blog.csdn.net/hjimce/article/details/50866313

https://zhuanlan.zhihu.com/p/75603087

https://blog.csdn.net/huangfei711/article/details/79865054