组会 | Transformer 中有意思的部分

最新推荐文章于 2025-07-10 09:37:19 发布

原创最新推荐文章于 2025-07-10 09:37:19 发布 · 878 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

深度学习专栏收录该内容

15 篇文章

订阅专栏

1 层归一化

在这里插入图片描述

Transformer 中的 “Norm” 指的是层归一化操作，它作用在当前层的输出上，以标准化下一层的输入，从而加速和稳定模型的训练过程。
由于不同样本的长度可能不同，因此 Transformer 使用的是层归一化，而不是批量归一化。

批量归一化和层归一化：

维度 N 表示样本个数，维度 C 表示通道个数，维度 T 表示特征个数
批量归一化：对不同样本的同一通道做归一化（对应于 (a) 中蓝色部分）
层归一化：对同一样本的不同通道做归一化（对应于 (b) 中蓝色部分）

在这里插入图片描述

个人理解：在 NLP 中，一句话为一个样本，句中的一个单词为一个特征，词向量的维度等于通道个数。

当样本长度不同时：

如下图所示，当 $\mathrm{T} > 4$ 时，只有一个样本还有特征，而基于单个样本的统计信息不能反映全局分布，因此 BN 效果不好；
若在模型测试阶段，存在 $\mathrm{T}$ 值大于任一训练样本的测试样本，则无法找到相应的、基于训练集的归一化统计量，因此 BN 无法运行。

在这里插入图片描述

此处引用自：模型优化之 Layer Normalization（https://zhuanlan.zhihu.com/p/54530247）

2 前馈子层

在这里插入图片描述

前馈子层提供了非线性变换，使得 Transformer 不仅依赖于线性变换，还可以通过 ReLU 等非线性激活函数捕获复杂的模式，提升了模型对多样性数据的表达能力。
前馈子层的计算成本较低，能与自注意力机制并行处理，大大提高了 Transformer 的效率。

3 多头注意力机制

在这里插入图片描述

多头注意力采用多组可学习参数，提供多种注意力分配结果（最后进行融合）
类似于 CV 中的多尺度，提供不同的感受野（最后进行融合）

4 Vision Transformer (ViT)

4.1 提出背景

Transformer 在 NLP 领域取得了极大的成功，因此 CV 领域也希望通过 Transformer 来获得性能上的进一步提升。
由于 Transformer 所处理的输入是一维的序列，而图片是二维的，因此需要对图片进行展开，但这也导致了输入序列的长度呈平方级的增长。

4.2 模型结构

在这里插入图片描述
上图流程如下：

将原始图片切割为 $16\times 16$ 的块；
将每个块展平为一维向量；
加入 $\mathsf{[class]}$ 标志位（ $*$ ），并引入位置编码（ $0, ..., 9$ ）；
将处理得到的结果输入 Transformer 的编码器；
将编码得到的结果输入 MLP 层；
根据 $\mathsf{[class]}$ 标志位得出预测结果，即该图片属于哪个类别。

上图公式如下：

$\begin{align} \text{z}_0 &= [\text{x}_{\text{class}}; \text{x}_p^1 \text{E}; \text{x}_p^2 \text{E}; \cdots ; \text{x}_p^N \text{E}] + \text{E}_{pos}, &\quad \text{E} \in \mathbb{R}^{(P^2 \cdot C) \times D}, \, \text{E}_{pos} \in \mathbb{R}^{(N+1) \times D} \tag{1} \\ \text{z}'_\ell &= \text{MSA}(\text{LN}(\text{z}_{\ell-1})) + \text{z}_{\ell-1}, &\qquad \ell = 1 \ldots L \tag{2} \\ \text{z}_\ell &= \text{MLP}(\text{LN}(\text{z}'_\ell)) + \text{z}'_\ell, &\qquad \ell = 1 \ldots L \tag{3} \\ \text{y} &= \text{LN}(\text{z}_L^0) \tag{4} \end{align}$