Transformer 和 Attention机制入门

白码思

已于 2025-01-07 23:10:01 修改

阅读量1k

点赞数 13

CC 4.0 BY-SA版权

分类专栏： Transformer and Attention 文章标签： transformer 深度学习人工智能

于 2025-01-07 23:09:32 首次发布

背景：
在自然语言处理领域，早期常使用循环神经网络（RNN）及其变体（如 LSTM、GRU）来处理序列数据，如机器翻译、文本生成等任务。然而，RNN 结构存在以下问题：
- 随着序列长度增加，模型难以捕捉远距离词汇之间的关联，且训练会出现梯度消失或梯度爆炸等现象。
- 训练时难以进行大规模并行计算，速度较慢。
Transformer 的诞生：
2017 年，论文《Attention is All You Need》提出了 Transformer 模型。Transformer 彻底摒弃了循环结构，转而依赖 Attention 机制 来处理序列中的依赖关系，大幅提升了训练效率，并能更好地捕捉长距离依赖。
主要结构：
Transformer 的整体结构可以概括为编码器（Encoder）和解码器（Decoder）两大部分：
- Encoder：由多个相同的编码器层（Encoder Layer）堆叠而成，每一层主要包含 多头自注意力（Multi-Head Self-Attention） 和 前馈网络（Feed-Forward Network）。
- Decoder：与编码器类似，也堆叠了多层的解码器层（Decoder Layer）。解码器层包含三个主要部分：掩码多头自注意力（Masked Multi-Head Self-Attention）、**与编码器交互的多头注意力（Encoder-Decoder Attention）**以及 前馈网络。</