Transformer

最新推荐文章于 2025-06-04 14:10:33 发布

原创

最新推荐文章于 2025-06-04 14:10:33 发布 · 2.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

Transformer是谷歌2017年提出的，不同于RNN、CNN的网络结构，完全采用自注意力机制。其核心包括编码端和解码端，使用multi-head self-attention和scaled dot-product attention，同时引入了位置embedding和mask机制。Transformer在NLP领域的应用广泛，如机器翻译。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer（一种网络结构）是谷歌在2017年NIPS发表的论文《Attention is all you need》上提出的。在Transformer提出之前，NLP领域常用RNN型序列网络结构来处理文本数据，另外CNN网络，由于其提取局部信息的强大能力，在NLP领域也一席之地。Transformer是不同于RNN、CNN的网络结构，它完全采用自注意力机制，在Transformer中没有序列形式，而是采用了位置形式来表示文本数据。
参考博客：Transformer原理详解

一背景介绍

Seq2Seq模型

一种encode-decode模型，常用于机器翻译中。Seq2Seq模型是用序列生成序列的方式，在编码端对原始文本进行编码，在解码端对生成文本进行预测。

dot-product attention

dot-product attention 一般用矩阵运算，Q K V 分别是三个矩阵，均表示一组向量，dot-product attention想做的是如何用V中的向量表示Q，Q一般指的是要表示的目标，K要和Q建立联系，计算相关性，以计算出的相关性为权重，加权叠加矩阵V中的向量。
在这里插入图片描述

二 Transformer网络结构

在这里插入图片描述

编码端

编码器是由N=6个完全相同的层堆叠而成；
每一层都有两个子层，即multi-head self-attention机制和简单的位置完全连接的前馈网络；
对每个子层都采用了一个残差连接、层标准化。

解码端

解码器由N=6个完全相同的层堆叠而成；
每一层都有三个子层，即multi-head self-attention机制、简单的位置全连接的前馈网络和对解码器堆栈的输出执行multi-head attention；
对每个子层采用一个残差连接、层标准化；
采用mask机制，防止位置关注到后面的位置。即掩码结合将输出嵌入偏移一个位置，确保对位置的预测i只能依赖小于i的已知输出。