Inception v2&Batch Normalization论文阅读笔记

原创已于 2022-11-12 21:34:34 修改 · 341 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#batch #论文阅读

于 2022-11-07 20:06:24 首次发布

论文笔记专栏收录该内容

35 篇文章

订阅专栏

本文探讨了深度学习中的内部协变量偏移问题及其解决方案Batch Normalization（BN）。介绍了BN如何通过稳定输入分布来加速训练过程，并允许使用更高的学习率。此外，还讨论了BN在实际应用中的调整建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Inception v2

看这个前先学会SGD和小批量、参数的更新过程、理解梯度爆炸梯度消失的过程。

Internal Covariate Shift 内部协变量偏移

分布：是指用于表述随机变量取值的概率规律

每一层神经网络的目的：学习当前层神经网络的输入或上一层神经网络的输出的分布。

机器学习（包含深度学习）的使用的基本假设：独立同分布假设，就是训练数据集与测试数据集服从相同的分布。这是通过训练数据训练得到的模型能在测试数据上工作的一个基本保障。

深度学习中的独立同分布假设：1）神经网络的训练集与测试集服从相同的分布。 2）神经网络每一次输入的mini-batch的样本都服从同一个分布。

每层神经网络的独立同分布假设：鉴于每层神经网络的目的，我们希望每一层神经网络在每一次迭代时的输入都服从同一个分布，只有这样，这层神经网络才能有效学习这个分布。否则，如果一个神经网络每一次输入的都是服从不同分布的样本，那么，最后神经网络也不知道该学习哪个分布了，从而导致学习效果变差。

协变量漂移/偏移Convariate Shift：一般是指训练集与测试集的分布不同，或每次迭代时输入层输入的样本服从的分布不同。
参考：https://blog.csdn.net/Strive_For_Future/article/details/108323634

什么是ICS?

Training Deep Neural Networks is complicated by the fact that the distribution of each layer’s inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful parameter initialization, and makes it notoriously hard to train models with saturating nonlinearities.

翻译：

训练深度神经网络很复杂，因为每层的输入分布在训练期间都会变化，因为上一层的参数变了。因此网络需要更低的学习率和更小心的初始化而拖慢了训练，训练用饱和非线性的模型变得更难。这种现象叫做ICS。

由于神经网络参数的不断变化，在每次迭代时每层的输入数据都服从不同的分布，这种现象叫内部协变量漂移 。
$Z^{[L]}=W^{[L]} * A^{[L-1]}+b^{[L]} (线性变化层) A^{[L]}=g^{[L]}\left(Z^{[L]}\right) (非线性变化/激活函数层)$

Wl和Bl都会更新，Zl的分布就会发生变化，导致Al分布变化（l+1层的输出）

每层都要去适应不同的分布变化，使得训练变得困难，学习率也得调小。

ICS会导致：

1.需要采用更低的学习率，学习速度降低

由于输入变动大，上层网络需要不断调整去适应下层网络，因此这个时候的学习速率不宜设得过大，因为梯度下降的每一步都不是“确信”的。

参考：https://zhuanlan.zhihu.com/p/456863215

2.在过激活层的时候，容易陷入激活层的梯度饱和区，降低模型收敛速度（当使用饱和激活函数，namely，signmoid，tanh，可以采用relu解决）

为什么容易陷入梯度饱和区？

用饱和激活函数，当绝对值越大时，数据落入两端的梯度饱和区（saturated regime），造成梯度消失，进而降低模型收敛速度。当数据分布变动非常大时，这样的情况是经常发生的

3.每层的更新都会影响到其它层，因此每层参数更新策略要很仔细

ICS解决：Batch Normalization

BN成功的地方不在解决ICS，*How Does Batch Normalization Help Optimization?*文中指出：

就算发生了ICS问题，模型的表现也没有更差
BN对解决ICS问题的能力是有限的
BN奏效的根本原因在于它让optimization landscape更平滑

BN层插入位置：激活函数之前（或输入）

BN是什么：

归一化层，论文中是对输入的x进行归一化，让数据distribution更均匀。基于小批量随机梯度下降（Mini-Batch SGB）

注意，BN针对的是一个batch中的所有样本而非单个样本。

BN算法：

对x的dimension/channel（CNN）做归一化，如果是MLP的话就是对一个minibatch中的所有样本x的每d做均值和方差。归一化后的y均值为方差为1。γβ是两个可学习的参数。

归一化：

去归一化：

BN前向传播：

在这里插入图片描述

BN训练过程：

反向传播计算BN层的梯度更新参数：

根据反向传播的顺序，首先求取损失ℓ对BN层输出yi的偏导∂ℓ / ∂yi，然后是对可学习参数的偏导∂ℓ / ∂γ和∂ℓ / ∂β，用于对参数进行更新，想继续回传的话还需要求对输入 x偏导（梯度给下一层），于是引出对变量μ、σ2和x^的偏导，根据链式法则再求这些变量对x的偏导。

在这里插入图片描述

在推断阶段（predict），对均值和方差的求解和训练阶段时的求法不一样 （因为预测的时候没有batchsize）。这里的均值和方差是根据训练过程中每一次batch得到的均值和方差求解得到的，即求每一个batch的均值和方差的期望的无偏估计。具体如下：
$\begin{array}{l} E[x]=E_{B}\left[\mu_{B}\right] \\ \operatorname{var}[x]=\frac{m}{m-1} E_{B}\left[\sigma_{B}^{2}\right] \end{array}$
最终公式：
$y=\frac{\gamma}{\sqrt{\operatorname{var}[x]+\varepsilon}} x+\left(\beta \frac{\gamma E[x]}{\sqrt{\operatorname{var}[x]+\varepsilon}}\right)$
训练过程（CNN,mlp差不都)：开始对一个batch中的所有相同的channel的feature map上所有的像素值做归一化（同一层的同位置feature map的对饮的卷积核共享γβ），之后把参数冻住，再通过上述无偏估计替换掉γβ。

原文：

1.so that different elements of the same feature map, at different locations, are normalized in the same way

2.so for a mini-batch of size m and feature maps of size p × q, we use the effective mini-batch of size m′ = |B| = m · p q. We learn a pair of parameters γ(k) and β(k) per feature map

BN训练过程：
在这里插入图片描述

为什么BN初始化能变大lr？

However, with Batch Normalization, backpropagation through a layer is unaffected by the scale of its parameters. Indeed, for a scalar a,
$\mathrm{BN}(W \mathrm{u})=\mathrm{BN}((a W) \mathrm{u})$

$\begin{array}{l} \frac{\partial \mathrm{BN}((a W) \mathrm{u})}{\partial \mathrm{u}}=\frac{\partial \mathrm{BN}(W \mathrm{u})}{\partial \mathrm{u}} \\ \frac{\partial \mathrm{BN}((a W) \mathrm{u})}{\partial(a W)}=\frac{1}{a} \cdot \frac{\partial \mathrm{BN}(W \mathrm{u})}{\partial W} \end{array}（推导一遍）$