对应课程:Transformer简明教程, 从理论到代码实现到项目实战, NLP进阶必知必会._哔哩哔哩_bilibili
1.初识transformer结构
transformer的结构:
编码器解码器的内部结构:
Self Attention 表示自注意力机制
Feed Forward 表示全连接层
2.计算注意力过程
上图表示输入是两个词a,b。
Embedding表示将输入的两个词进行向量化为两个向量x1和x2。注意:通过图片的给出的向量x1和向量x2发现。两个向量都是一个一行四列的矩阵,这个结论很重要,会与后期的注意力计算机制相联系。
通过图片中的右下角位置,发现一共有三个变量WQ\WK\WV,且三个变量都是四行三列的矩阵。当输入的数据向量化得到的矩阵与之相乘的结果,就是一个一行三列