Transformer 初学者入门

本文深入解析Transformer模型,包括输入嵌入、位置编码、多头注意力机制、残差连接与归一化等关键组件。通过举例说明,帮助初学者理解模型工作原理,涉及词向量、位置编码、前馈神经网络等概念,并介绍了解码器中的Masked Multi-Head Attention。适合有一定数学基础的读者学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 前言

2017年Google提出Transformer模型。过去了四年,想要入门Transformer原本是非常容易的,网上的资源一搜一大堆,但是大同小异,或者说没说到的地方都没说到,初学者看了之后除非悟性极好,否则还是不能理解(比如我)。所以我想尽量详细地叙述这个模型,综合网上各种贴子,可能你会有熟悉感。

修完大学公共数学基础三部曲即可。

2 总体概述

首先祭出这张最经典的论文图。

在这里插入图片描述

总体上Transformer模型使用的是 解码器-译码器 的模式,即encoder-decoder。直观上讲,

就是一个输入,被输入到encoder模块当中,encoder模块输出一个中间产物,中间产物被decoder使用(应该是反复使用),结合decoder本身的输入,经过一系列运算,输出结果(中间结果)。

理解上可以当做一个阅卷过程。encoder是试题组,综合考卷试题,给出一个给分细则,decoder像批卷老师,decoder输入是一份未批阅试卷,老师一手拿着给分细则打分,打分收到你之前题目作答情况,比如之前老师觉得给分太低,这时候有可能补偿式打分,最后将整分卷子批完。当然,给分一定合理吗?并不是。​

这是个大概理解,接下来才是重点。

3. 各模块分析

Encoder

1. input embedding (输入嵌入)

以翻译为例。我要翻译一句话:I am a man.

我们中间是要对其进行数学运算,显然字符不合适,需要转化成数字。比如 数字1表示 I ,数字2表示 am,数字3表示 a , 数字4表示 man。只不过这是最朴素的想法,事实上一个句子中的每个单词,都有个词向量去表示,例如 man 可以表示成
Vetcor(man)=[0,0,0,1] Vetcor(man) = [0,0,0,1] Vetcor(man)=[0,0,0,1]
这个叫做one−hotone-hotonehot编码方式,最简单的一种,直接“看式思义“。但是这个词向量长度维数非常高(不应该叫”长度“, “大小”感觉还可以),存储开销比较大,于是利用某些技术,降低维度,
Vector′(man)=[x1,x2,x3] Vector'(man) = [x_1,x_2,x_3] Vector(man)=[x1,x2,x3]
某些技术指词嵌入技术,比如Word2VecWord2VecWord2Vec​​, 可以在本站搜索,没搜索到应该是我还没写。 = =

转化成向量,很多计算就更加方便了,可以牵扯到矩阵的运算。向量->矩阵。

01234
Ix(0,0)x_{(0,0)}x(0,0)x(0,1)x_{(0,1)}x(0,1)x(0,2)x_{(0,2)}x(0,2)x(0,3)x_{(0,3)}x(0,3)x(0,4)x_{(0,4)}x(0,4)
amx(1,0)x_{(1,0)}x(1,0)x(1,1)x_{(1,1)}x(1,1)​​x(1,2)x_{(1,2)}x(1,2)​​x(1,3)x_{(1,3)}x(1,3)​​x(1,4)x_{(1,4)}x(1,4)​​
ax(2,0)x_{(2,0)}x(2,0)x(2,1)x_{(2,1)}x(2,1)x(2,2)x_{(2,2)}x(2,2)x(2,3)x_{(2,3)}x(2,3)x(2,4)x_{(2,4)}x(2,4)
manx(3,0)x_{(3,0)}x(3,0)x(3,1)x_{(3,1)}x(3,1)x(3,2)x_{(3,2)}x(3,2)x(3,3)x_{(3,3)}x(3,3)x(3,4)x_{(3,4)}x(3,4)

这样一个句子就转化成了矩阵,每一行是一个单词的词向量。实际上词向量列数有很多,整个矩阵大小是sequenceLength × dmodelsequenceLength\ ×\ d_{model}sequenceLength × dmodel​​​​​​​​​​​​​​​​​​​​​ , 而真正的输入XXX​​​​​​​​​​​​​​​​​​​​,是很多个这样类似的矩阵,是一个 batchSize × sequenceLength × dmodelbatchSize\ ×\ sequenceLength\ ×\ d_{model}batchSize × sequenceLength × dmodel​​​​​​​​​​​​​​​​​​​​​​​​ 的张量。

dmodeld_{model}dmodel 论文中大小采用512。

batchSizebatchSizebatchSize​​ 一般指同时代入训练模型的实例个数。因为你总不能把所有句子所代表的矩阵全扔进去。

2. position embedding (位置嵌入)

位置信息在翻译当中是重要的。

You do like it. (你确实喜欢它) Do you like it? (你喜欢它吗?) 翻译上存在不同。

position embedding 就是刻画位置信息的编码,类似于词向量。

分为绝对位置编码,三角式,训练式,相对位置编码等等。建议阅读,

https://www.zhihu.com/search?type=content&q=transformer%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81

论文当中采用三角式,

PE(pos,2i)=sin(pos/100002i/dmodel)PE(pos,2i) = sin(pos/10000^{2i/d_{model}})PE(pos,2i)=sin(pos/100002i/dmodel)

PE(pos,2i+1)=cos(pos/100002i/dmodel)PE(pos,2i+1) = cos(pos/10000^{2i/d_{model}})PE(pos,2i+1)=cos(pos/100002i/dmodel)

pospospos​ 是单词在句子中的位置,pos∈[0,sequenceLength)pos\in [0,sequenceLength)pos[0,sequenceLength)​ , i∈[0,dmodel)i \in [0,d_{model})i[0,dmodel)

而事实上,目前三角式用处比较小,相对位置编码更加重要,见

https://mp.weixin.qq.com/s/vXYJKF9AViKnd0tbuhMWgQ

最后信息添加的方式也非常简单,直接将输入矩阵X=X+PE(X)X = X+PE(X)X=X+PE(X)​​​​

在这里插入图片描述

3. Multi-Head Attention (多头注意力机制)

这是核心部分。
在这里插入图片描述

首先是Q,K,VQ,K,VQ,K,V​​。

我们在之前得到了处理过的XXX​​了,我们需要用XXX​​得到Q,K,VQ,K,VQ,K,V​​​​​​. 转化如下(图中三个Linear部分)
Q=XWQ,K=XWK,V=XWV Q = XW_Q,K = XW_K,V = XW_V Q=XWQ,K=XWK,V=XWV

Wi∈Rdmodel×dmodel,i=Q,K,V W_i\in{\R^{d_{model}×{d_{model}}}},i={Q,K,V} WiRdmodel×dmodel,i=Q,K,V

WiW_iWi 一般情况下,最初可以是个dmodel×dmodeld_{model}×d_{model}dmodel×dmodel 的随机矩阵,要“学习”的内容也正是它,因此他的初值可以是随机的。那为什么要转化成三个不同矩阵呢?原因是为了将输入矩阵映射到不同的子空间,增强了表达能力,提高了泛化能力。

下面我们先看不进行分头处理的注意力机制,就是解释下述公式。
Attention(Q,K,V)=softmax(QKTdk)V Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dkQKT)V

我们先看 QKTQK^TQKT 是什么。

在这里插入图片描述

QKTQK^TQKT 是一个 dmodel×dmodeld_{model}×d_{model}dmodel×dmodel注意力矩阵,每一个元素 (QKT)ij(QK^T)_{ij}(QKT)ij 表示第 iii 个词和第 jjj 个词的相联程度,而这种相联程度使用对应词向量的点积进行描述。

比如向量 e1,e2e_1,e_2e1,e2 相似程度,我们可以用点积量描述,如图

e1⃗⋅e2⃗=∣e1⃗∣∣e2⃗∣cos<e1⃗,e2⃗>=cos<e1⃗,e2⃗>\vec{e_1}·\vec{e_2} = |\vec{e_1}||\vec{e_2}|cos<\vec{e_1},\vec{e_2}> = cos<\vec{e_1},\vec{e_2}>e1e2=e1e2cos<e1,e2>=cos<e1,e2>​​

在向量运算当中, e1e_1e1e2e_2e2eee 的相似程度更高。

在这里插入图片描述

那么为什么要除以 dk\sqrt{d_k}dk​ ?作用是把注意力矩阵变成标准正态分布,使得 softmaxsoftmaxsoftmax 结果更加稳定。

softmax(x)softmax(x)softmax(x)​ 是个怎样的函数呢?

Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量 “压缩”到另一个K维实向量 中,使得每一个元素的范围都在之间,并且所有元素的和为1。 ——百度百科

softmax(xi)=exi∑j=1Nexj,i=1,2,...,N softmax(x_i) = \frac{e^{x_i}}{\sum^N_{j=1}e^{x_j}} , i=1,2,...,N softmax(xi)=j=1Nexjexi,i=1,2,...,N

例如,x=[1,2,3]x = [1,2,3]x=[1,2,3]​ , softmax(x)=[0.09003,0.24473,0.66524]softmax(x) = [0.09003,0.24473,0.66524]softmax(x)=[0.09003,0.24473,0.66524]​​

可以发现 softmaxsoftmaxsoftmax 函数将向量元素之和归一化到1,并且“放大”了元素之间的差值。

不过存在的问题就是指数运算过后,可能有上溢/下溢,解决方法就是对其进行变式。

经过这一系列处理,得到一个注意力矩阵,可以看作一个评分机制,或者是权值矩阵。我们再乘以 VVV ,本质上是对 VVV​ 做一次求加权均值的过程。这样整个 Attention(Q,K,V)Attention(Q,K,V)Attention(Q,K,V)​ 就获得了句子整体的信息。

最后我们来解释多头的含义。

所谓多头,就是指将矩阵均分成 hhh 组,每一组分别做注意力计算,最后我们再将他们连接到一起,再做一个线性变换,得到注意力层输出。需要注意的是 hhh 需要能整除 dmodeld_{model}dmodel

(论文中 hhh 取8)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hsqghzPS-1644115648285)(Transformer学习/ai-1-6.png)]

我们说注意力机制是一种词和词之间的关系,一个词在每个头更“关注”的部分不同,使用多个头可以反映这种不同的关注,接合起来使得矩阵蕴含更复杂的信息。

4. Add&Norm (残差连接与归一化)

AddAddAdd 过程是一个残差连接的过程,做的事情就是 OutputAttention=OutputAttention+XOutput_{Attention} = Output_{Attention} + XOutputAttention=OutputAttention+X 。这一处理主要目的是防止梯度消失

NormNormNorm​ 过程是一个归一化的过程,主要目的是将矩阵按行化为标准正态分布,加快收敛过程,加快训练速度。

5. Feed Forward (前馈神经网络)

Feedback(X)=W1T(ReLu(W2TX+b2))+b1 Feedback(X) = W_1^T(ReLu(W_2^TX+b_2))+b_1 Feedback(X)=W1T(ReLu(W2TX+b2))+b1

前馈神经网络主要作用是提供非线性转换,增强模型泛化能力。非线性部分指的是 ReLuReLuReLu​ 函数,常见的一种激活函数。
ReLu(x)=max{0,x} ReLu(x) = max\{0,x\} ReLu(x)=max{0,x}

在这里插入图片描述

Decoder

6. Outputs (解码器输入)

解码器也是有输入的,输入为译码器输入句子的译文。这种译文输入形式类似译码器输入,并不是“翻译”结果,这个 OutputsOutputsOutputs 是我们给定的。但是我们并不能让模型以一个“上帝视角”去学习,如果整个译文信息在翻译时被全部观测到,那“学习”是效果差的。所以需要 maskmaskmask​ 技术使得翻译时不能够提前得到词的信息。

7. Masked Multi-Head Attention

maskmaskmask 分为两种。

在这里插入图片描述

其中一种 maskmaskmask 是一种填充 (paddingpaddingpadding) 技术,因为句子长度不一,我们并行处理的张量规模需要一致,因此我们选择其中最长的句子长度作为句子的尺度,空出来的部分(灰色),使用 0 填充。

第二种 maskmaskmask 只在 decoderdecoderdecoder​ 中使用,注意蓝色和橙色部分。我们不能利用未来的信息,所以也需要 maskmaskmask​​ ,所利用的是之前的译文信息。使用 −inf-infinf 填充。

8. Linear && Softmax

LinearLinearLinear​ 负责将得到的解码器输出映射到一个高维向量,维度取决于词典大小。

SoftmaxSoftmaxSoftmax 负责将这个向量转化为一个类似概率的输出,这样我们把概率大的词作为翻译后的词汇。

3. 过程

例子 I am a man.

首先我们需要一个词典,记录用到的词。还有开始符(BOS),结束符(EOS),也被记录到词典里。

初始时,只有BOS一个符号。我们把句子以张量形式输入到译码器中,注意解码器和译码器并不是只有一个,而是有 NNN 个复制。TransformerTransformerTransformer​ 的特点之一就是方便并行处理,提高效率。通过编码器我们得到一个隐藏层 (中间矩阵),这时候我们利用这个编码器输出矩阵线性变换为解码器的 K,VK,VK,V 输入,另外解码器还有输入部分就是给出的译文信息变换成的 QQQ 。注意到编码器输出是要给到多个 $Decoder $ 的。每次翻译一个词,如下,

BOS -> BOS 我 -> BOS 我 是 -> BOS 我 是 一 … -> BOS 我 是 一 个 男 人 EOS

我们定义损失函数,和真实翻译结果比较,运用反向传播算法,更新权值矩阵。

4. 结语

考虑初学理解有限,有不对的地方欢迎指正,也请详细说说,谢谢!

个人blog: https://fatebai.github.io/
欢迎浏览!

2021/9/1 BRB, a Observer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值