
基础-优化器激活函数
文章平均质量分 91
基础-优化器
nopSled
一周一更
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Symbolic Discovery of Optimization Algorithms翻译
优化算法,即优化器,在训练神经网络中起着基本作用。近年来有大量人工设计的优化器被提出,主要是自适应的优化器。但是,具有解藕权重衰减的Adam(即AdamW),以及使用分解的第二动量的Adafactor仍然是训练大多数深度神经网络的标准优化器,尤其是最近的SOTA语言,视觉和多模态模型。另一个方向是自动发现这种优化算法。learning to optimize(L2O)方法提出通过训练参数化模型(例如神经网络)来作为优化器,该模型能输出更新的参数梯度。翻译 2023-02-25 17:34:27 · 429 阅读 · 0 评论 -
GAUSSIAN ERROR LINEAR UNITS (GELUS)翻译
摘要 我们提出了高斯误差线性单元(GELU),它一种高性能的神经网络激活函数。GELU的非线性是随机正则化器的预期变换,随机正则化器(防止过拟合)将等式或零映射随机应用于神经元的输入。GELU的非线性按其幅度输入,而不是按照ReLU中的符号进行门控输入。我们针对ReLU和ELU激活对GELU非线性进行了实验评估,并在所有考虑的计算机视觉,自然语言处理和语音任务中发现了性能改进。 1.介绍 早期人工...翻译 2019-05-06 10:55:01 · 1041 阅读 · 0 评论 -
SEARCHING FOR ACTIVATION FUNCTIONS翻译
1.摘要 在深度神经网络中选择合适的激活函数对网络的动态训练和任务的性能具有显著的影响。目前,最成功也最为被广泛使用的激活函数是修正线性单元(Rectified Linear Unit,ReLU)。虽然已经提出了各种手工设计的ReLU替代方案,但由于收益不一致,没有人设法取代它。在这项工作中,我们提出了利用自动搜索技术来发现新的激活函数。使用穷举和强化学习搜索的组合,我们发现了多个新的激活函数。我...翻译 2019-04-29 14:32:50 · 1727 阅读 · 2 评论 -
The Marginal Value of Adaptive Gradient Methods in Machine Learning翻译
摘要 自适应优化方法使用从历史迭代中构建的度量值执行局部优化,这对于训练深度神经网络变得越来越流行。这些例子包括AdaGrad,RMSProp和Adam。我们将表明,对于简单的过参数化(overparameterized)问题,自适应方法常常找到与梯度下降(GD)或随机梯度下降(SGD)截然不同的解决方案。我们构造了一个能够说明该问题的二分类任务,其中数据是线性可分的,GD和SGD达到零测试误差,...翻译 2019-08-18 15:12:52 · 940 阅读 · 0 评论 -
Improving Generalization Performance by Switching from Adam to SGD翻译
摘要 尽管自适应优化方法(例如Adam,Adagrad或者RMSprop)具有优越的训练结果,但是与随机梯度下降(SGD)相比,这些方法具有糟糕的泛化能力。这些方法趋向于在初始训练阶段完成更好的训练,然而在训练的最终阶段使用SGD能达到更好的效果。我们研究了一种混合策略,该策略开始使用自适应方法进行训练,并在适当时切换到SGD。具体地说,我们提出SWATS,这是一种简单的策略,当满足触发条件时,从...翻译 2019-08-23 13:16:20 · 1755 阅读 · 0 评论