transformer——学习笔记

蓝色的镜子

已于 2025-04-05 22:24:03 修改

阅读量876

点赞数 12

CC 4.0 BY-SA版权

文章标签： transformer 学习笔记

于 2025-04-05 22:23:42 首次发布

本文链接：https://blog.csdn.net/2403_88971056/article/details/146810301

标记器和独热编码

编辑

矩阵相乘可以理解成对原向量进行空间变换的操作

词嵌入

word2vec（将语言中的token投射到潜空间的方法）

掩码（masks)、残差、layernorm

掩码

残差

layernorm

标记器和独热编码

为什么要编解码? 以翻译举例：计算机无法理解人类语言，所以要将纯文本转化成数字关系，再由数字关系转换成另一种对应文本。

于是，标记器和独热编码就出现了，其作为一种工具，对基础的语义单元（token）进行数字化。

标记器和独热编码代表了语义单元数字化的两个极端，前者把token均投射再了一维数轴上，token之间的关系仅由数值决定，而后者为每个token均分配一个维度，有多少token就有多少维，但这样每个token之间都是正交的，无法表示token之间复杂的语义联系。

明显，上述两种方法均无法实现对复杂语义的准确表达，所以就需要对维度和数值进行平衡。实现方法是对独热编码进行降维。得到一个语义空间——“潜空间”

矩阵相乘可以理解成对原向量进行空间变换的操作

如上图所示，原矩阵与中间矩阵相乘后，维度（列数）由M变成了N，而得到的矩阵的向量数量（矩阵的行数）不变，也就是经过矩阵乘法后改变了向量的空间位置（维度变换可以看作向量与坐标轴之间相对位置发生了改变），而且向量的数量不变。

因此，我们就可以使用矩阵相乘进行，降维操作。

另外，在神经网络中，神经元之间的计算也可以看成矩阵运算也就是对数据进行升维和降维操作，具体升维还是降维取决于前后层相对神经元个数。

词嵌入

了解升维降维操作后，就可以理解编码解码的操作了。

编码：将token编码成独热编码，再对其进行降维（embeding），也就是把文本等数据投射到潜空间中。

解码：将潜空间里的向量还原成文本等数据形式。

潜空间：经过上述编解码的操作，得到的是一个表示语义的向量空间也就是潜空间。而潜空间里的每个向量的每个维度可以看作这个token对应的不同语义。而这个token的具体语义取决于这个向量每个维度对应的具体的值。

word2vec（将语言中的token投射到潜空间的方法）

目的：得到一个可以将具体语言token投射到潜空间的嵌入矩阵。

CBOW:

CBOW方法：即用上下文去推断某个词向量。如上图，具体计算方式就是将上下四个向量相加，再令其通过嵌入矩阵，将得到的结果与中间词对应的向量进行比较，用两者的偏差进行反向传播。最终得到一个嵌入矩阵，它可以让上下文向量的和经过嵌入矩阵后可以与中间的词向量的结果相等。

这个方法表现的思想，表现了语言中一个词的具体语义能且只能由其上下文决定。

skip_gram:

skip_gram的方法与CBOW原理是相通的，只是将计算反了过来，将词向量通过嵌入矩阵，再将其与上下文比较。

注意力机制

如图，在输入时原始数据要经过嵌入矩阵（图中粉色方框部分）。但嵌入矩阵得到的只是词在潜空间的向量投影，潜空间只是相当于一个词典。而要理解词和词之间组合后的语义，是需要注意力机制来实现的。也就是图中橙色方框部分，transformer的核心。

上图表示的既是注意力的计算方式：

输入一组词向量，令其分别与对应W矩阵相乘，得到Q，K，V三个矩阵，再将Q与K的转置矩阵相乘，得到的结果除以,然后经过softmax计算后与矩阵V相乘。

其中，的作用是调整矩阵的概率分布，假设V的概率分布方差为1，那么得到的概率分布方差为，所以这里对里的每一项除以一个，令和V矩阵的概率分布相等。

那么如何理解上述一系列计算的意义呢?

如图的计算，实际上是将输入的一组词向量矩阵中的每一个词向量单独拿出来，再令其与其他词向量（包括自己）相乘，得到矩阵A。举个例子：矩阵A中的第一行，表示的便是Q矩阵中的第一行（即第一个词向量）与其他词向量的关系。而列数表示的该词向量与那个词向量的关系，如A矩阵第一行第一列代表的是第一个词向量与自己的关系。

然后softmax计算，将其转化成概率关系。然后乘以矩阵V。如果将关系看作权重的话，V矩阵每个词向量的每个维度都受到其那一列中的每个数据的影响，而影响大小，就由得到的权重决定。

理解Q和V

在数学上，Q和V矩阵实际上是可以统一的，V矩阵可已经过Q矩阵转置等数学计算得到，那么为什么需要将其分成两个矩阵分别计算呢？

一，引入非线性。

如上图，两个X矩阵的不同形式的相乘可以看作引入了二次性。添加了非线性可以使得模型表达能力更强。

二，表达语义和设定语义

还有一种理解方式，人类语言是很复杂的，很多时候甚至存在矛盾，而Q和V两个矩阵可以将语言分成两种形式，即表达语义和设定语义。让两种矛盾的语义并行不悖。

交叉注意力机制

如上图，自注意力机制只有一个输入，所有的经验都从原有材料中学习和提取出来。

而交叉注意力机制有两个输入，在学习时相当于有一个校准和参考材料。但是这样做的缺点是模型只能学到比较浅的知识。

交叉注意力机制因此更适合语言翻译的工作：

需要注意的是语言的翻译不是一个词一个词的映射，大多数情况下两种表达相同意思的语言的词的数量是不同的。

如上图，在语言翻译过程中是一个一个词冒出来的。例如：编码器接收中文后，将其映射到潜空间，再由解码器接收一个开始的特殊符号，然后根据中文的词向量，得到一个概率最大的结果，输出英文词向量，当然要将其转化成文本输出，然后根据已经输出的词向量再次输入解码器，得到新的英文单词，如此循环，直到输出结束的特殊符号。

交叉注意力在翻译中的优势就是多了这样一个参照和对比的过程。