https://arxiv.org/pdf/2503.10622

摘要
归一化层在现代神经网络中无处不在,并且长期以来一直被认为是必不可少的。本研究表明,不使用归一化的Transformer可以通过一种非常简单的技术达到相同或更好的性能。我们引入了动态双曲正切(Dynamic Tanh,简称DyT),这是一种逐元素运算DyT(x)=tanh(αx)\operatorname{DyT}(\boldsymbol{x})=\tanh (\alpha \boldsymbol{x})DyT(x)