DEEPLEARNING.AI第二门第三周1-5笔记_学习率和bata-1 beta-2-CSDN博客

本文探讨深度学习中神经网络超参数的调试技巧，包括如何系统地选择和优化超参数，以及Batch归一化如何简化参数搜索并加速训练过程。介绍了随机取值和由粗到细的搜索策略，以及如何为不同超参数选择合适的取值范围。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.1 调试处理

目前为止，我们已经了解到：神经网络的改变会涉及到许多不同超参数的设置。对于超参数而言，你要如何找到一套好的设定呢？在视频中，老师分享了一些指导原则，还有一些关于如何系统地组织超参调试过程的技巧，希望这些能够帮你更有效地完成合适的超参设定。
在这里插入图片描述
关于训练深度最难的事情之一是要处理的参数的数量非常多，从学习速率 $α\alpha$ 到Momentum（动量梯度下降法）的参数 $β\beta$ 。如果使用Momentum或Adam优化算法的参数， $β1\beta_1$ ， $β2\beta_2$ 和 $ξ\xi$ ，也许你还得选择层数。可能你还想选择不同层中隐藏单元的数量，或者想使用学习率衰减。所以，你使用的并不是单一的学习率 $α\alpha$ 。当然你可能还需要选择mini-batch的大小。
一些实践结论证实，一些超参数比其它的更为重要。他认为，最为广泛的学习应用是 $α\alpha$ ，学习速率 $α\alpha$ 是需要调试的最重要的超参数。
除了 $α\alpha$ ，还有一些参数需要调试，例如Momentum参数 $β\beta$ ，0.9就是个很好的默认值。接着还会调试mini-batch的大小，以确保最优算法运行有效。经常调试隐藏单元，比如橙色的那一些，这三个是我觉得其次比较重要的，相对于 $α\alpha$ 而言。重要性排第三位的是其他因素，层数有时会产生很大的影响，学习率衰减也是如此。当应用Adam算法时，事实上，老师说他从不调试 $β1\beta_1$ ， $β2\beta_2$ 和 $ξ\xi$ ，只是总是选定其分别为0.9，0.999和 $10^{-8}$ ，如果你想的话也可以调试它们。
但粗略了解到哪些超参数较为重要，无疑是最重要的， $α\alpha$ 无疑是老师认为最重要的，接下来就是橙色和紫色的。但这不是严格且快速的标准，我认为，其它深度学习的研究者可能会很不同意我的观点或有着不同的直觉。

现在，如果你要尝试调整一些超参数，该如何选择调试值呢？在早一代的机器学习算法中，如果你有两个超参数，称之为超参1，超参2，常见的做法是在网格中取样点，像下图左边所示，然后系统的研究这些数值。这里放置的是5×5的网格，实践证明，网格可以是5×5，也可多可少，但对于这个例子，你可以尝试这所有的25个点，然后选择哪个参数效果最好。当参数的数量相对较少时，这个方法很实用。

在深度学习领域，我们常做的，是下面的做法，随机选择点，可以选择同等25个点，接着，用这些随机取的点试验超参数的效果。（下图右边）
在这里插入图片描述
之所以这么做是因为，对于你要解决的问题而言，你很难提前知道哪个超参数最重要，正如你之前看到的，一些超参数的确要比其它的更重要。
举个例子，假设超参数1是（学习速率） $α\alpha$ ，再取一个极端的假设，假设超参数2是Adam算法分母中的 $ξ\xi$ 。在这种情况下， $α\alpha$ 的取值很重要，而 $ξ\xi$ 取值则无关紧要。如果你在网格中像左边一样取点，接着试验了5个取值，那你会发现，无论取何值，结果基本上都是一样的。所以，你知道共有25种模型，但进行试验的值只有5个，我认为这是很重要的。
对比而言，如果你随机取值，你会试验25个独立的，似乎你更有可能发现效果最好的那个。

我已经解释了两个参数的情况，实践中，你搜索的超参数可能不止两个。假如，你有三个超参数，这时你搜索的不是一个方格，而是一个立方体，超参数3代表第三维，接着，在三维立方体中取值，你会试验大量的更多的值，三个超参数中每个都是。
实践中，你搜索的可能不止三个超参数有时很难预知，哪个是最重要的超参数，对于你的具体应用而言，随机取值而不是网格取值表明，你探究了更多重要超参数的潜在值，无论结果是什么。

当你给超参数取值时，另一个惯例是采用由粗糙到精细的策略。
在这里插入图片描述
比如在二维的那个例子中，你进行了取值，也许你会发现效果最好的某个点，也许这个点周围的其他一些点效果也很好，那在接下来要做的是放大这块小区域（小蓝色方框内），然后在其中更密集得取值或随机取值，聚集更多的资源，在这个蓝色的方格中搜索，如果你怀疑这些超参数在这个区域的最优结果，那在整个的方格中进行粗略搜索后，你会知道接下来应该聚焦到更小的方格中。在更小的方格中，你可以更密集得取点。所以这种从粗到细的搜索也经常使用。

通过试验超参数的不同取值，你可以选择对训练集目标而言的最优值，或对于开发集而言的最优值，或在超参搜索过程中你最想优化的东西。
这能给你提供一种方法去系统地组织超参数搜索过程。另一个关键点是随机取值和精确搜索，考虑使用由粗糙到精细的搜索过程。但超参数的搜索内容还不止这些。

3.2 为超参数选择合适的范围

在超参数范围中，随机取值可以提升你的搜索效率。但随机取值并不是在有效范围内的随机均匀取值，而是选择合适的标尺，用于探究这些超参数，这很重要。
在这里插入图片描述
假设你要选取隐藏单元的数量 $n^{[l]}$ ，选取的取值范围是从50到100中某点，这种情况下，看到这条从50-100的数轴，你可以随机在其取点，这是一个搜索特定超参数的很直观的方式。或者，如果你要选取神经网络的层数，你也许会选择层数为2到4中的某个值，接着顺着2，3，4随机均匀取样才比较合理，你还可以应用网格搜索，你会觉得2，3，4，这三个数值是合理的，这是在几个在你考虑范围内随机均匀取值的例子，这些取值还蛮合理的，但对某些超参数而言却不适用。
在这里插入图片描述
看看这个例子，假设你在搜索超参数（学习速率 $α\alpha$ ，怀疑其值最小是0.0001或最大是1。如果你画一条从0.0001到1的数轴，沿其随机均匀取值，那90%的数值将会落在0.1到1之间，结果就是，在0.1到1之间，应用了90%的资源，而在0.0001到0.1之间，只有10%的搜索资源，这看上去不太对。
反而，用对数标尺搜索超参数的方式会更合理，因此这里不使用线性轴，分别依次取0.0001，0.001，0.01，0.1，1，在对数轴上均匀随机取点，这样，在0.0001到0.001之间，就会有更多的搜索资源可用。
在这里插入图片描述
更常见的情况是，如果你在 $10^a$ 和 $10^b$ 之间取值，你可以通过0.0001算出a的值，即-4，在右边的值是 $10^b$ ，你可以算出b的值，即0。你要做的就是在区间随机均匀地给取值。在这个例子中，然后你可以设置的值，基于随机取样的超参数。
在这里插入图片描述

所以总结一下，在对数坐标下取值，取最小值的对数就得到a的值，取最大值的对数就得到b值，所以现在你在对数轴上的 $10^a$ 到 $10^b$ 区间取值，在a，b间随意均匀的选取r值，将超参数设置为 $10^r$ ，这就是在对数轴上取值的过程。

最后，另一个棘手的例子是给 $β\beta$ 取值，用于计算指数的加权平均值。假设你认为 $β\beta$ 是0.9到0.999之间的某个值，也许这就是你想搜索的范围。记住这一点，当计算指数的加权平均值时，取0.9就像在10个值中计算平均值，有点类似于计算10天的温度平均值，而取0.999就是在1000个值中取平均。
在这里插入图片描述
所以和上张幻灯片上的内容类似，如果你想在0.9到0.999区间搜索，那就不能用线性轴取值，对吧？不要随机均匀在此区间取值，所以考虑这个问题最好的方法就是，我们要探究的是 $1−β1-\beta$ ，此值在0.1到0.001区间内，所以我们会给 $1−β1-\beta$ 取值，大概是从0.1到0.001，值得注意的是，在之前的幻灯片里，我们把最小值写在左边，最大值写在右边，但在这里，我们颠倒了大小。这里，左边的是最大值，右边的是最小值。所以你要做的就是在 $[- 3, - 1]$ 里随机均匀的给r取值。你设定了 $1−β=10r1-\beta=10^r$ ，所以就变成了在特定的选择范围内超参数随机取值。所以你在0.9到0.99区间探究的资源，和在0.99到0.999区间探究的一样多。

希望能帮助你选择合适的标尺，来给超参数取值。如果你没有在超参数选择中作出正确的标尺决定，别担心，即使你在均匀的标尺上取值，如果数值总量较多的话，你也会得到还不错的结果，尤其是应用从粗到细的搜索方法，在之后的迭代中，你还是会聚焦到有用的超参数取值范围上。

3.3 超参数调试的实践：Pandas VS Caviar

在这里插入图片描述
关于如何搜索超参数的问题，大概有两种重要的思想流派或人们通常采用的方式。一种是你照看一个模型，通常是有庞大的数据组，但没有许多计算资源或足够的CPU和GPU的前提下，基本而言，你只可以一次负担起试验一个模型或一小批模型，在这种情况下，即使当它在试验时，你也可以逐渐改良。比如，第0天，你将随机参数初始化，然后开始试验，然后你逐渐观察自己的学习曲线，也许是损失函数J，或者数据设置误差或其它的东西，在第1天内逐渐减少，那这一天末的时候，你可能会说，看，它学习得真不错。我试着增加一点学习速率，看看它会怎样，也许结果证明它做得更好，那是你第二天的表现。两天后，你会说，它依旧做得不错，也许我现在可以填充下Momentum或减少变量。然后进入第三天，每天，你都会观察它，不断调整你的参数。也许有一天，你会发现你的学习率太大了，所以你可能又回归之前的模型，像这样，但你可以说是在每天花时间照看此模型，即使是它在许多天或许多星期的试验过程中。所以这是一个人们照料一个模型的方法，观察它的表现，耐心地调试学习率，但那通常是因为你没有足够的计算能力，不能在同一时间试验大量模型时才采取的办法。
在这里插入图片描述
另一种方法则是同时试验多种模型，你设置了一些超参数，尽管让它自己运行，或者是一天甚至多天，然后你会获得像这样的学习曲线，这可以是损失函数J或实验误差或损失或数据误差的损失，但都是你曲线轨迹的度量。同时你可以开始一个有着不同超参数设定的不同模型，所以，你的第二个模型会生成一个不同的学习曲线，也许是像这样的一条（紫色曲线），我会说这条看起来更好些。与此同时，你可以试验第三种模型，其可能产生一条像这样的学习曲线（红色曲线），还有另一条（绿色曲线），也许这条有所偏离，像这样，等等。或者你可以同时平行试验许多不同的模型，橙色的线就是不同的模型。用这种方式你可以试验许多不同的参数设定，然后只是最后快速选择工作效果最好的那个。在这个例子中，也许这条看起来是最好的（下方绿色曲线）。
在这里插入图片描述
打个比方，把左边的方法称为熊猫方式。当熊猫有了孩子，他们的孩子非常少，一次通常只有一个，然后他们花费很多精力抚养熊猫宝宝以确保其能成活，所以，这的确是一种照料，一种模型类似于一只熊猫宝宝。对比而言，右边的方式更像鱼类的行为，我称之为鱼子酱方式。在交配季节，有些鱼类会产下一亿颗卵，但鱼类繁殖的方式是，它们会产生很多卵，但不对其中任何一个多加照料，只是希望其中一个，或其中一群，能够表现出色。我猜，这就是哺乳动物繁衍和鱼类，很多爬虫类动物繁衍的区别。我将称之为熊猫方式与鱼子酱方式，因为这很有趣，更容易记住。
所以这两种方式的选择，是由你拥有的计算资源决定的，如果你拥有足够的计算机去平行试验许多模型，那绝对采用鱼子酱方式，尝试许多不同的超参数，看效果怎么样。但在一些应用领域，比如在线广告设置和计算机视觉应用领域，那里的数据太多了，你需要试验大量的模型，所以同时试验大量的模型是很困难的，它的确是依赖于应用的过程。但如果看到那些应用熊猫方式多一些的组织，那里，你会像对婴儿一样照看一个模型，调试参数，试着让它工作运转。尽管甚至是在熊猫方式中，试验一个模型，观察它工作与否，也许第二或第三个星期后，也许应该建立一个不同的模型（绿色曲线），像熊猫那样照料它，这样一生中或许可以多培育几个孩子，即使它们一次只有一个孩子或孩子的数量很少。

3.4 归一化网络的激活函数

在深度学习兴起后，最重要的一个思想是它的一种算法，叫做Batch归一化，由Sergey loffe和Christian Szegedy两位研究者创造。Batch归一化会使你的参数搜索问题变得很容易，使神经网络对超参数的选择更加稳定，超参数的范围会更加庞大，工作效果也很好，也会是你的训练更加容易，甚至是深层网络。让我们来看看Batch归一化是怎么起作用的吧。

当训练一个模型，比如logistic回归时，你也许会记得，归一化输入特征可以加快学习过程。你计算了平均值，从训练集中减去平均值，计算了方差，接着根据方差归一化你的数据集，在之前的视频中我们看到，这是如何把学习问题的轮廓，从很长的东西，变成更圆的东西，更易于算法优化。所以对于logistic回归和神经网络的归一化输入特征值而言，这是很有效的。

那么更深的模型呢？
在这里插入图片描述
所以问题来了，对任何一个隐藏层而言，我们能否归一化a值，在此例中，比如说 $a^{[2]}$ 的值，简单来说，这就是Batch归一化的作用。尽管严格来说，我们真正归一化的不是 $a^{[2]}$ ，而是 $z^{[2]}$ ，深度学习文献中有一些争论，关于在激活函数之前是否应该将 $z^{[2]}$ 值归一化，或是否应该在应用激活函数 $a^{[2]}$ 后再规范值。实践中，经常做的是归一化 $z^{[2]}$ ，所以这就是课程介绍的版本，那下面就是Batch归一化的使用方法。
在这里插入图片描述
在神经网络中，已知一些中间值，假设你有一些隐藏单元值，你要计算平均值，强调一下，所有这些都是针对l层，但我省略l及方括号，然后用正如你常用的那个公式计算方差，接着，你会取每个 $z^{[i]}$ 值，使其规范化，方法如下，减去均值再除以标准偏差，为了使数值稳定，通常将作为分母，以防 $σ=0\sigma=0$ 的情况。
现在我们已把这些z值标准化，化为含平均值0和标准单位方差，z每一个分量都含有平均值0和方差1，但我们不想让隐藏单元总是含有平均值0和方差1，也许隐藏单元有了不同的分布会有意义，我们所要做的就是计算，
在这里插入图片描述
这里和是你模型的学习参数，所以我们使用梯度下降或一些其它类似梯度下降的算法，比如Momentum或者Nesterov，Adam，你会更新 $γ\gamma$ 和 $β\beta$ ，如同更新神经网络的权重一样。
通过对 $γ\gamma$ 和 $β\beta$ 合理设定，规范化过程，即这四个等式，从根本来说，只是计算恒等函数，通过赋予和其它值，可以使你构造含其它平均值和方差的隐藏单元值。
在这里插入图片描述
归一化输入特征X是怎样有助于神经网络中的学习，Batch归一化的作用是它适用的归一化过程，不只是输入层，甚至同样适用于神经网络中的深度隐藏层。你应用Batch归一化了一些隐藏单元值中的平均值和方差，不过训练输入和这些隐藏单元值的一个区别是，你也许不想隐藏单元值必须是平均值0和方差1。
比如，如果你有sigmoid激活函数，你不想让你的值总是全部集中在这里，你想使它们有更大的方差，或不是0的平均值，以便更好的利用非线性的sigmoid函数，而不是使所有的值都集中于这个线性版本中，这就是为什么有了和两个参数后，你可以确保所有的值可以是你想赋予的任意值，或者它的作用是保证隐藏的单元已使均值和方差标准化,学习算法可以设置为任何值。所以它真正的作用是，使隐藏单元值的均值和方差标准化，即有固定的均值和方差，均值和方差可以是0和1，也可以是其它值，它是由 $γ\gamma$ 和 $β\beta$ 两参数控制的。

3.5 将 Batch Norm 拟合进神经网络（Fitting Batch Norm into a neural network）

在这里插入图片描述
假设你有一个这样的神经网络。第一，它先计算z，然后应用其到激活函数中再计算a，可以认为，每个圆圈代表着两步的计算过程。所以如果你没有应用Batch归一化，你会把输入X拟合到第一隐藏层，然后首先计算 $z^{[1]}$ ，这是由 $w^{[1]}$ 和 $b^{[1]}$ 两个参数控制的。接着，通常而言，你会把 $z^{[1]}$ 拟合到激活函数以计算 $a^{[1]}$ 。但Batch归一化的做法是将 $z^{[1]}$ 值进行Batch归一化，简称BN，此过程将由和两参数控制，这一操作会给你一个新的规范化的 $z^{[1]}$ 值，然后将其输入激活函数中得到 $a^{[1]}$ 。
现在，你已在第一层进行了计算，此时Batch归一化发生在z的计算和a之间，接下来，你需要应用 $a^{[1]}$ 值来计算 $z^{[2]}$ ，此过程是由 $w^{[2]}$ 和 $b^{[2]}$ 控制的。与你在第一层所做的类似，你会将 $z^{[2]}$ 进行Batch归一化，现在我们简称BN，这是由下一层的Batch归一化参数所管制的，即 $γ[2]\gamma^{[2]}$ 和 $β[2]\beta^{[2]}$ ，现在你得到 $z^[2]\hat{z}^{[2]}$ ，再通过激活函数计算出 $a^{[2]}$ 等等。
所以需要强调的是Batch归一化是发生在计算和之间的。直觉就是，与其应用没有归一化的 $z^{[1]}$ 值，不如用归一过的 $z^[1]\hat{z}^{[1]}$ ，这是第一层。第二层同理。现在我们产生了新的参数网络：
在这里插入图片描述
所以现在，这是你算法的新参数，接下来你可以使用想用的任何一种优化算法，比如使用梯度下降法来执行它。
计算均值和方差，减去均值，再除以方差，如果它们使用的是深度学习编程框架，通常你不必自己把Batch归一化步骤应用于Batch归一化层，这就是Batch归一化的操作。可写成一行代码，比如说，在TensorFlow框架中，你可以用这个函数tf.nn.batch_normalization来实现Batch归一化。

实践中，Batch归一化通常和训练集的mini-batch一起使用。你应用Batch归一化的方式就是，你用第一个mini-batch( $X^{[1]}$ )，然后计算 $z^{[1]}$ ，这和上张幻灯片上我们所做的一样，应用参数 $w^{[1]}$ 和 $b^{[1]}$ ，使用mini-batch。接着，继续第二个mini-batch( $X^{[1]}$ )，接着Batch归一化会减去均值，除以标准差，重新缩放，这样就得到了 $z^[1]\hat{z}^{[1]}$ ，而所有的这些都是在第一个mini-batch的基础上，你再应用激活函数得到 $a^{[1]}$ 。然后用 $w^{[1]}$ 和 $b^{[1]}$ 计算……所以你做的这一切都是为了在第一个mini-batch( $X^{[1]}$ )上进行一步梯度下降法。
在这里插入图片描述
类似的第二个第三个是相同的操作，但Batch归一化做的是，它要看这个mini-batch，先将 $z^{[l]}$ 归一化，结果为均值0和标准方差，再重缩放，但这意味着，无论的 $b^{[l]}$ 值是多少，都是要被减去的，因为在Batch归一化的过程中，你要计算的 $z^{[l]}$ 均值，再减去平均值，在此例中的mini-batch中增加任何常数，数值都不会改变，因为加上的任何常数都将会被均值减去所抵消。
所以，如果你在使用Batch归一化，其实你可以消除这个参数，或者你也可以暂时把它设置为0。
在这里插入图片描述
如果你已将梯度计算如下，你就可以使用梯度下降法了，但也适用于有Momentum、RMSprop、Adam的梯度下降法。与其使用梯度下降法更新mini-batch，你可以使用这些其它算法来更新，也可以应用其它的一些优化算法来更新由Batch归一化添加到算法中的 $β\beta$ 和 $γ\gamma$ 参数。