阅读文献:Transformers without Normalization

简介

        

        何恺明新作,与图灵奖得主 Yann LeCun 合作。这项研究的主题是没有归一化层的 Transformer(Transformers without Normalization),并已被 CVPR 2025 会议接收。论文一作 Jiachen Zhu 为纽约大学四年级博士生、二作陈鑫磊(Xinlei Chen)为 FAIR 研究科学家,项目负责人为刘壮。

  • 论文标题:Transformers without Normalization

  • 论文地址:https://arxiv.org/pdf/2503.10622

  • 项目主页:https://jiachenzhu.github.io/DyT/

  • GitHub 地址:https://github.com/jiachenzhu/DyT

        这篇论文的主题是“没有归一化的Transformer”,也就是在Transformer模型中不使用归一化层,而是用一种叫做Dynamic Tanh(DyT)的方法来替代。听起来挺有意思的,因为归一化层比如Layer Norm(LN)在Transformer里几乎是标配,作者们说可以不用,还能保持甚至提升性能,这有点反直觉。

        归一化层在传统Transformer中的作用。通常,LN会对每个token的激活值进行归一化,减去均值,除以标准差,然后应用可学习的缩放和平移参数。这有助于稳定训练,加速收敛。但是作者观察到,LN实际上在深层网络中会产生类似tanh函数的S型曲线,即对输入的极端值进行压缩,中间部分保持线性。于是他们提出了DyT,用tanh(αx)来代替LN,其中α是可学习的参数,这样既保留了非线性压缩,又不需要计算统计量。

        在多个任务和模型上验证了DyT的效果。包括监督学习、自监督学习、扩散模型、大语言模型等。实验结果显示,DyT在这些任务中表现与LN相当或更好,同时在计算效率上有所提升。此外,还进行了消融实验,验证了tanh函数和α的重要性,以及与其他方法的对比,显示DyT优于其他去除归一化的方法。

        需要进一步理解的地方。比如,为什么LN在深层网络中会呈现tanh的S型曲线?作者提到不同token的均值和标准差不同,导致归一化后的线性变换在整体上呈现出非线性。另外,DyT中的α如何学习,是否与输入的标准差相关?从分析部分看,α确实与输入的标准差有关,这可能是其能够替代LN的关键。还有,作者提到在LLM中需要调整α的初始化,较大的模型需要较小的α,这可能与模型的宽度和深度有关。这里可能需要更深入的数学分析,来理解α的动态调整机制。

        最后,论文的局限性在于DyT无法直接替代BN在传统卷积网络中的效果,这可能与BN的应用频率不同有关。这也说明归一化层的设计可能需要根据网络结构的不同进行调整。

核心贡献

  1. Dynamic Tanh(DyT)

    • 定义:DyT是一个逐元素操作,公式为:

      DyT(x)=γ⋅tanh⁡(αx)+βDyT(x)=γ⋅tanh(αx)+β

      其中,αα为可学习的缩放参数,γγ和ββ为通道级的可学习仿射参数。

    • 动机:作者观察到,Layer Norm在深层网络中会产生类似tanh的S型曲线,通过非线性压缩极端值,同时保持中间区域的线性。DyT通过tanh函数模拟这一行为,省去了计算均值和标准差的开销。

  2. 实验验证

    • 广泛任务:在视觉(ViT、ConvNeXt)、语言模型(LLaMA)、扩散模型(DiT)、语音(wav2vec 2.0)和DNA序列建模(HyenaDNA、Caduceus)等任务中,DyT均表现与归一化层相当或更优。

    • 效率提升:DyT减少了计算时间(LLaMA 7B的推理和训练时间分别降低7.8%和8.2%),适合高效网络设计。

  3. 理论分析

    • α的作用:α与输入激活值的标准差(1/std1/std)高度相关,在训练中动态调整,起到隐式归一化的作用。

    • 消融实验:移除tanh会导致训练不稳定,移除α则性能下降,说明两者缺一不可。

关键发现

  1. 归一化层的非线性本质

    • Layer Norm在深层网络中通过不同token的统计量差异,整体呈现非线性S型曲线(类似tanh),而非简单的线性变换。

  2. DyT的普适性

    • 在监督学习、自监督学习、生成任务中,DyT无需超参数调优即可匹配或超越传统归一化层。

    • 仅在**大语言模型(LLM)**中需调整α的初始化(较大的模型需较小的α值)。

  3. 局限性

    • DyT无法直接替代传统卷积网络(如ResNet、VGG)中的Batch Norm,可能与BN的高频使用有关。

意义与启示

  • 挑战传统观念:归一化层并非深度网络训练的绝对必需品,其作用可通过更简单的非线性操作(如DyT)替代。

  • 效率与简化:DyT减少了计算开销,为轻量级模型设计提供了新思路。

  • 研究方向:未来可探索DyT在更多架构(如非Transformer模型)中的适用性,以及其与优化动态的深层联系。

附录实验

  • 超参数敏感性:DyT对学习率和α初始化的敏感性较低,默认值(α0=0.5α0​=0.5)在多数任务中表现稳健。

  • 与替代方法对比:DyT优于Fixup、SkipInit等去归一化方法,尤其在视觉任务中优势显著(如ViT-B准确率82.8% vs Fixup 77.2%)。

  • 总结

  • 本文通过DyT展示了归一化层在Transformer中的可替代性,为模型简化与效率优化提供了新路径。其核心思想是通过动态缩放与非线性压缩模拟归一化的效果,兼具性能与效率。然而,其在传统卷积网络中的局限性仍需进一步研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值