2.3.1 为超参数选择合适的范围

本文介绍了如何选择和调试超参数的方法,特别是针对学习率等关键超参数。文中详细讲解了使用对数标尺来搜索超参数的策略,并给出了从粗糙到精细逐步调整超参数的实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

调试处理

对于超参数,如何才能找到一个比较好的设定呢?

这里写图片描述

如图所示,我们可能会需要调试很多的超参数。但其中最重要的超参数还是学习率。被红色圈住的是最重要的超参数,橙色的是次重要的超参数。紫色是再其次重要的。

如果想调试一系列的超参数,具体应该怎么做呢?

这里写图片描述

如图所示,我们通常情况下会采用图中右侧所示的情况来选择超参数,比如说二维情况下,我们确定选择范围之后随机选点,然后看看这个超参数效果好不好。三维也是如此。

我们还有一种超参数的选择策略

这里写图片描述

如图所示,这是一个从粗糙到精细的过程,比如说,如果你发现了某一个超参数比较好,然后就在这个更小的范围内去选项超参数,缩小选择范围可能会得到更好的结果。

为超参数选择合适的范围

我们上面介绍的随机提取并不是在有效范围内随机的均匀取值,而是选择合适的标尺,用来探究这些超参数。

这里写图片描述

如图所示,这是对参数的取值范围选取,看到均匀选取可能是合适的,但这个对于超参数而言并不成立,我们来看一下超参数是如何选取的。

这里写图片描述

如图所示,我们来看一个学习率的例子。我们如果使用均匀取值的话,那么0.1-1的概率将会占到90%,而0.001-0.1的范围只占到了10%,这就十分不合理了,所以我们使用对数标尺来搜索超参数。取值方法如图所示。

另外一个比较棘手的问题是对 β β 取值,比如他的搜索范围是从0.9-0.999

这里写图片描述

这里的0.9就相当于对10天的情况取平均,而0.999相当于对1000天的情况取平均。所以,不能使用随机平均来选取这些超参数,也要用对数的形式。

如图所示,我们换成了 1β 1 − β 的形式,然后对数处理,在[-3,-1]里面取平均就可以了。通过这种方法就可以实现了从0.9-0.99和0.99-0.999取值一样多的情况。

因为 β β 是指数加权平均,所以一定要用对数处理一下,才能达到真正的平均。

吴教主深度学习和神经网络课程总纲

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值