阅读文献：Transformers without Normalization

原创已于 2025-03-29 10:45:48 修改 · 919 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #transformer

于 2025-03-28 16:25:31 首次发布

简介

何恺明新作，与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer（Transformers without Normalization），并已被 CVPR 2025 会议接收。论文一作 Jiachen Zhu 为纽约大学四年级博士生、二作陈鑫磊（Xinlei Chen）为 FAIR 研究科学家，项目负责人为刘壮。

论文标题：Transformers without Normalization
论文地址：https://arxiv.org/pdf/2503.10622
项目主页：https://jiachenzhu.github.io/DyT/
GitHub 地址：https://github.com/jiachenzhu/DyT

这篇论文的主题是“没有归一化的Transformer”，也就是在Transformer模型中不使用归一化层，而是用一种叫做Dynamic Tanh（DyT）的方法来替代。听起来挺有意思的，因为归一化层比如Layer Norm（LN）在Transformer里几乎是标配，作者们说可以不用，还能保持甚至提升性能，这有点反直觉。

归一化层在传统Transformer中的作用。通常，LN会对每个token的激活值进行归一化，减去均值，除以标准差，然后应用可学习的缩放和平移参数。这有助于稳定训练，加速收敛。但是作者观察到，LN实际上在深层网络中会产生类似tanh函数的S型曲线，即对输入的极端值进行压缩，中间部分保持线性。于是他们提出了DyT，用tanh(αx)来代替LN，其中α是可学习的参数，这样既保留了非线性压缩，又不需要计算统计量。

在多个任务和模型上验证了DyT的效果。包括监督学习、自监督学习、扩散模型、大语言模型等。实验结果显示，DyT在这些任务中表现与LN相当或更好，同时在计算效率上有所提升。此外，还进行了消融实验，验证了tanh函数和α的重要性，以及与其他方法的对比，显示DyT优于其他去除归一化的方法。

需要进一步理解的地方。比如，为什么LN在深层网络中会呈现tanh的S型曲线？作者提到不同token的均值和标准差不同，导致归一化后的线性变换在整体上呈现出非线性。另外，DyT中的α如何学习，是否与输入的标准差相关？从分析部分看，α确实与输入的标准差有关，这可能是其能够替代LN的关键。还有，作者提到在LLM中需要调整α的初始化，较大的模型需要较小的α，这可能与模型的宽度和深度有关。这里可能需要更深入的数学分析，来理解α的动态调整机制。

最后，论文的局限性在于DyT无法直接替代BN在传统卷积网络中的效果，这可能与BN的应用频率不同有关。这也说明归一化层的设计可能需要根据网络结构的不同进行调整。

核心贡献

Dynamic Tanh（DyT）
- 定义：DyT是一个逐元素操作，公式为：
  DyT(x)=γ⋅tanh⁡(αx)+βDyT(x)=γ⋅tanh(αx)+β
  其中，αα为可学习的缩放参数，γγ和ββ为通道级的可学习仿射参数。
- 动机：作者观察到，Layer Norm在深层网络中会产生类似tanh的S型曲线，通过非线性压缩极端值，同时保持中间区域的线性。DyT通过tanh函数模拟这一行为，省去了计算均值和标准差的开销。
实验验证
- 广泛任务：在视觉（ViT、ConvNeXt）、语言模型（LLaMA）、扩散模型（DiT）、语音（wav2vec 2.0）和DNA序列建模（HyenaDNA、Caduceus）等任务中，DyT均表现与归一化层相当或更优。
- 效率提升：DyT减少了计算时间（LLaMA 7B的推理和训练时间分别降低7.8%和8.2%），适合高效网络设计。
理论分析
- α的作用：α与输入激活值的标准差（1/std1/std）高度相关，在训练中动态调整，起到隐式归一化的作用。
- 消融实验：移除tanh会导致训练不稳定，移除α则性能下降，说明两者缺一不可。

关键发现

归一化层的非线性本质
- Layer Norm在深层网络中通过不同token的统计量差异，整体呈现非线性S型曲线（类似tanh），而非简单的线性变换。
DyT的普适性
- 在监督学习、自监督学习、生成任务中，DyT无需超参数调优即可匹配或超越传统归一化层。
- 仅在**大语言模型（LLM）**中需调整α的初始化（较大的模型需较小的α值）。
局限性
- DyT无法直接替代传统卷积网络（如ResNet、VGG）中的Batch Norm，可能与BN的高频使用有关。

意义与启示

挑战传统观念：归一化层并非深度网络训练的绝对必需品，其作用可通过更简单的非线性操作（如DyT）替代。
效率与简化：DyT减少了计算开销，为轻量级模型设计提供了新思路。
研究方向：未来可探索DyT在更多架构（如非Transformer模型）中的适用性，以及其与优化动态的深层联系。

附录实验

超参数敏感性：DyT对学习率和α初始化的敏感性较低，默认值（α0=0.5α0=0.5）在多数任务中表现稳健。
与替代方法对比：DyT优于Fixup、SkipInit等去归一化方法，尤其在视觉任务中优势显著（如ViT-B准确率82.8% vs Fixup 77.2%）。
总结
本文通过DyT展示了归一化层在Transformer中的可替代性，为模型简化与效率优化提供了新路径。其核心思想是通过动态缩放与非线性压缩模拟归一化的效果，兼具性能与效率。然而，其在传统卷积网络中的局限性仍需进一步研究。