Inception v2/BN-Inception：Batch Normalization 论文笔记

最新推荐文章于 2022-08-11 11:27:41 发布

原创

最新推荐文章于 2022-08-11 11:27:41 发布 · 4.7k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#Inception v2 #Batch Normalization

本文介绍了Batch Normalization（BN）如何减少内部协方差，加速深度网络训练，允许使用更高的学习速率并作为正则化器。BN通过mini-batch的统计信息对激活进行标准化，减少了网络内部的covariate shift，同时在Inception v2模型中应用BN，实现了性能提升。实验表明，BN网络的训练步骤显著减少，甚至在移除dropout后仍能保持良好性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Inception v2 / BN-Inception：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

摘要：
$\quad$ $\;$ 各层输入数据分布的变化阻碍了深度网络的训练。这使得训练过程中要设置更低的学习速率，从而减慢了模型的训练；同时使得使用饱和非线性激活函数的模型变得极度难训练。作者将这种现象称为内部协方差变换，并通过normalization层的输入解决了这个问题。文中，作者还提出了mini-batch版的normalization（BN）。BN允许使用更高的学习速率和less careful initialization。BN也是一个regularizer，在某种程度上减轻了dropout的必要性。BN能将当前state of art分类模型的训练steps减少为1/14，并且以明显优势击败了原始模型。

关键点：BN、用两个3x3代替一个5x5、LRN是不必要的。

BN 的好处：

BN 减少了内部协方差，提高了梯度在网络中的流动，加速了网络的训练。
BN 使得可以设置更高的学习速率。
BN 正则了模型。

文章目录

1.简介
2.减少内部协方差（Towards Reducing Internal Covariate Shift）
3.基于Mini-Batch的统计实现Normalization（Normalization via Mini-Batch Statistics）
4. 实验
BN在TensorFlow中的实现
附录：
- Inception v2的TensorFlow实现

1.简介

$\quad$ $\;$ 深度学习在视觉、语音和其它领域方面的state of art提高了许多。随机梯度下降（SGD）已经被证明是训练深度网络的一个高效方法，并且SGD的其它变种，例如momentum和Adagrad已经被使用去获得state of art。SGD优化网络的参数 $\Theta$ 的方法是最小化loss： $\Theta=arg{min\\{\Theta}}\frac{1}{N}\sum_{i=1}^{N}{l(x_{i},\Theta)}$ 这里 $x_{1...N}$ 是训练集，使用SGD训练时，训练的一个step输入一个batch_size ( $m$ )的数据 $x_{1...m}$ 。mini-batch被用来计算一个近似梯度： $\frac{1}{m}\frac{\partial{l(x_{i},\Theta)}}{\partial{\Theta}}$ $\quad$ $\;$ 使用mini-batch个example而不是单个example有很多好处。首先在mini-batch上计算的梯度是整个数据集上计算的梯度的一个近似；mini-batch越大，两者越接近。其次，batch比整个数据集( $m$ )上计算梯度更高效。

$\quad$ $\;$ 尽管随机梯度是简单、高效的，但它需要对模型的超参数进行精心地微调，尤其是优化过程中使用的学习速率和模型参数的初始值。每一层的输入都被前面层的参数影响，这使得训练过程变得复杂。模型参数的微小改变会随着网络的加深而放大。

$\quad$ $\;$ 每一层输入的分布的改变导致一个问题，因为各层需要持续的去适应新的分布。当一个学习系统的输入的分布改变时，据说经历了 $c o v a r i a t e$ $s h i f t$ 2。这通常通过domain adaptation3来处理。但是，协方差变换的概念可以从整个网络扩展到它的部件，例如，一个sub-network或一层。假设一个网络计算： $l=F_{2}(F_{1}(\text{u},\Theta_{1}),\Theta_{2})$ 当 $F_{1}$ 和 $F_{2}$ 是任意的变换，参数 $\Theta_{1}$ 和 $\Theta_{2}$ 是为了最小化loss $l$ 需要学习的参数。如果假设 $x=F_{1}(\text{u},\Theta_{1})$ ，那么学习参数 $\Theta_{2}$ 的过程，能够被看作： $l=F_{2}(\text{x},\Theta_{2})$ 例如，一个梯度下降step： $\Theta_{2}\leftarrow\Theta_{2}-\frac{\alpha}{m}\sum_{i=1}^{m}\frac{\partial{F_{2}}(\text{x}_{i},\Theta_{2})}{\partial\Theta_{2}}$ batch size= $m$ 和学习速率= $\alpha$ ，上面的公式等价于一个标准的单层网络 $F_{2}(\text{x},\Theta_{2})$ 。因此，输入的分布特性使得训练更加更加高效：例如，训练数据和测试数据有相同的分布，同样这个规则也适用于sub-network。如上面所说，x的分布保持不变将是很有益处的。因此， $\Theta_{2}$ 不必重新调整去补偿x的分布的变化。

$\quad$ $\;$ 固定一个sub-network输入的分布也会对sub-network外的网络产生积极影响。考虑一个使用sigmoid激活函数的层 $\text{z}=g(W\text{u}+b)$ ，这里 $\text{u}$ 是该层的输入，权重矩阵 $W$ ，偏差 $b$ 是该层需要学习的参数，其中 $g(x)=\frac{1}{1+exp(-x)}$ 。随着 $∣ x ∣$ 的增加， $g^{'} (x)$ 趋向于0。这意味着 $\text{x}=W\text{u}+b$ 中除 $\text{x}$ 很小的部分，其余梯度将vanish并且模型将会训练的很慢。但是，因为 $\text{x}$ 受 $W$ 和 $b$ 和下面层的参数影响，训练过程中，这些参数的改变将使得 $\text{x}$ 中更多部分移向非线性激活函数的饱和区，从而减慢收敛过程。这一效应会随着网络的加深而放大。在实践中，饱和问题和由此导致的vanishing gradients通常使用ReLU、精心的参数初始化和小学习速率来解决。但是，如果我们能够在训练过程中，能够保证非线性激活函数的输入的分布保持稳定；因此，优化函数将几乎不会陷入饱和区并且训练会加速。

$\quad$ $\;$ 我们将训练过程中，一个网络内部节点的分布的改变称为 $I n t e r n a l$ $C o v a r i a t e$ $S h i f t$ 。消除它必定将加快训练。我们提出了一个新机制： $B a t c h$ $N o r m a l i z a t i o n$ ，它采取一个step去减少internal covariate shift，通过该step将显著加速深度神经网络的训练。normalization step固定层的输入的均值和方差。Batch Normalization通过减少梯度对参数scale和初始值的依赖，有利于梯度在网络内部的流动。这允许我们去使用更高的学习速率而不会有发散的风险。更进一步，BN regularizes模型并且减少了模型中dropout的必要性。最终，BN通过阻止网络陷入饱和，使得可以使用饱和非线性激活函数。

$\quad$ $\;$ 在4.2节，我们应用BN到分类的state of art网络。我们只要原始steps的7% step就可以达到相同的性能，最终可以取得较大的准确率提升。使用训练好的BN之后网络的集成版本，top-5错误率超过了当前的最好结果。

2.减少内部协方差（Towards Reducing Internal Covariate Shift）

$\quad$ $\;$ 我们定义 $I n t e r n a l$ $C o v a r i a t e$ $S h i f t$ 为训练过程中网络参数变化导致的网络activation的分布的改变。为了提高训练（加速，提升效果，原文为：To improve the training），我们必须想办法去减少内部协方差。通过固定训练过程中层输入 $\text{x}$ 的分布，我们期望去提升训练速度。模型的输入被白化能加速模型训练过程中的收敛速度。例如，通过线性变换将activations变换到0均值、1方差并且去相关。因为每一层的输入都来自前一层，所以对每一层的输入进行白化将会十分有益处。通过白化每一层的输入，我们将采取一个step去固定输入的分布，它将消除 $i n t e r n a l$ $c o v a r i a t e$ $s h i f t$ 带来的不利影响。

$\quad$ $\;$ 我们可以考虑在训练过程中的每一个step或间隔一些step白化activations。白化方法：1.直接修改网络参数；2.根据网络的activations修改优化算法的参数。但是，如果这些修改被分散到所有优化step，那么，梯度下降step需要在更新参数前更新normalization，这讲降低梯度下降的效果（then the gradient descent step may attempt to update the parameters in a way that requires the normalization to be updated, which reduces the effect of the gradient step）。例如，考虑一个输入为 $u$ ，偏差为 $b$ 的层，然后normalizes该层的输出by减去整个数据集( $\chi$ )上的activation的mean： $\hat{x}=x-E[x]$ ，这里 $x = u + b$ ， $\chi=\{x_{1...N}\}$ 代表整个训练集， $E[x]=\frac{1}{N}\sum_{i=1}^{N}x_{i}$ 。如果一个梯度下降step忽略 $E [x]$ 依赖于 $b$ ，那么它会这么更新 $b$ ： $\leftarrow b+\Delta b$ ，这里 $\Delta b \propto \partial l / \partial \hat{x}$ 。然后 $u+(b+\Delta b)-E[u+(b+\Delta b)]=u+b-E[u+b]$