简介
何恺明新作,与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。论文一作 Jiachen Zhu 为纽约大学四年级博士生、二作陈鑫磊(Xinlei Chen)为 FAIR 研究科学家,项目负责人为刘壮。
-
论文标题:Transformers without Normalization
-
论文地址:https://arxiv.org/pdf/2503.10622
-
项目主页:https://jiachenzhu.github.io/DyT/
-
GitHub 地址:https://github.com/jiachenzhu/DyT
这篇论文的主题是“没有归一化的Transformer”,也就是在Transformer模型中不使用归一化层,而是用一种叫做Dynamic Tanh(DyT)的方法来替代。听起来挺有意思的,因为归一化层比如Layer Norm(LN)在Transformer里几乎是标配,作者们说可以不用,还能保持甚至提升性能,这有点反直觉。
归一化层在传统Transformer中的作用。通常,LN会对每个token的激活值进行归一化,减去均值,除以标准差,然后应用可学习的缩放和平移参数。这有助于稳定训练,加速收敛。但是作者观察到,LN实际上在深层网络中会产生类似tanh函数的S型曲线,即对输入的极端值进行压缩,中间部分保持线性。于是他们提出了DyT,用tanh(αx)来代替LN,其中α是可学习的参数,这样既保留了非线性压缩,又不需要计算统计量。
在多个任务和模型上验证了DyT的效果。包括监督学习、自监督学习、扩散模型、大语言模型等。实验结果显示,DyT在这些任务中表现与LN相当或更好,同时在计算效率上有所提升。此外,还进行了消融实验,验证了tanh函数和α的重要性,以及与其他方法的对比,显示DyT优于其他去除归一化的方法。
需要进一步理解的地方。比如,为什么LN在深层网络中会呈现tanh的S型曲线?作者提到不同token的均值和标准差不同,导致归一化后的线性变换在整体上呈现出非线性。另外,DyT中的α如何学习,是否与输入的标准差相关?从分析部分看,α确实与输入的标准差有关,这可能是其能够替代LN的关键。还有,作者提到在LLM中需要调整α的初始化,较大的模型需要较小的α,这可能与模型的宽度和深度有关。这里可能需要更深入的数学分析,来理解α的动态调整机制。
最后,论文的局限性在于DyT无法直接替代BN在传统卷积网络中的效果,这可能与BN的应用频率不同有关。这也说明归一化层的设计可能需要根据网络结构的不同进行调整。
核心贡献
-
Dynamic Tanh(DyT)
-
定义:DyT是一个逐元素操作,公式为:
DyT(x)=γ⋅tanh(αx)+βDyT(x)=γ⋅tanh(αx)+β其中,αα为可学习的缩放参数,γγ和ββ为通道级的可学习仿射参数。
-
动机:作者观察到,Layer Norm在深层网络中会产生类似
tanh
的S型曲线,通过非线性压缩极端值,同时保持中间区域的线性。DyT通过tanh
函数模拟这一行为,省去了计算均值和标准差的开销。
-
-
实验验证
-
广泛任务:在视觉(ViT、ConvNeXt)、语言模型(LLaMA)、扩散模型(DiT)、语音(wav2vec 2.0)和DNA序列建模(HyenaDNA、Caduceus)等任务中,DyT均表现与归一化层相当或更优。
-
效率提升:DyT减少了计算时间(LLaMA 7B的推理和训练时间分别降低7.8%和8.2%),适合高效网络设计。
-
-
理论分析
-
α的作用:α与输入激活值的标准差(1/std1/std)高度相关,在训练中动态调整,起到隐式归一化的作用。
-
消融实验:移除
tanh
会导致训练不稳定,移除α则性能下降,说明两者缺一不可。
-
关键发现
-
归一化层的非线性本质
-
Layer Norm在深层网络中通过不同token的统计量差异,整体呈现非线性S型曲线(类似
tanh
),而非简单的线性变换。
-
-
DyT的普适性
-
在监督学习、自监督学习、生成任务中,DyT无需超参数调优即可匹配或超越传统归一化层。
-
仅在**大语言模型(LLM)**中需调整α的初始化(较大的模型需较小的α值)。
-
-
局限性
-
DyT无法直接替代传统卷积网络(如ResNet、VGG)中的Batch Norm,可能与BN的高频使用有关。
-
意义与启示
-
挑战传统观念:归一化层并非深度网络训练的绝对必需品,其作用可通过更简单的非线性操作(如DyT)替代。
-
效率与简化:DyT减少了计算开销,为轻量级模型设计提供了新思路。
-
研究方向:未来可探索DyT在更多架构(如非Transformer模型)中的适用性,以及其与优化动态的深层联系。
附录实验
-
超参数敏感性:DyT对学习率和α初始化的敏感性较低,默认值(α0=0.5α0=0.5)在多数任务中表现稳健。
-
与替代方法对比:DyT优于Fixup、SkipInit等去归一化方法,尤其在视觉任务中优势显著(如ViT-B准确率82.8% vs Fixup 77.2%)。
-
总结
-
本文通过DyT展示了归一化层在Transformer中的可替代性,为模型简化与效率优化提供了新路径。其核心思想是通过动态缩放与非线性压缩模拟归一化的效果,兼具性能与效率。然而,其在传统卷积网络中的局限性仍需进一步研究。