要点:
(1)解码器接收来自编码器的输出(向量)作为上下文信息(向量)
(2)在解码器的"编码器-解码器注意力"子层之前,编码器的输出向量会被线性变换(通常通过两个不同的权重矩阵)分别转换为键(Keys, K)和值(Values, V)。这一变换帮助模型学习如何有效地利用这些向量来指导解码过程中的注意力分配
(3)解码器在每个时间步也会生成自己的向量,称为查询(Query, Q),这代表了解码器当前状态下的注意力焦点或意图。
1.Transformer 训练的反馈机制
Transformer 训练的反馈机制:
-
前向传播:输入数据通过 Transformer 模型的编码器和解码器进行处理,生成最终的输出。
-
计算损失:模型的输出与真实的目标值之间的差异通过损失函数(如交叉熵损失)来计算损失值。
-
反向传播:损失值利用反向传播算法在整个网络中传播,计算每个参数的梯度。
-
参数更新:利用梯度下降算法或其变种(如 AdamW 优化器)根据梯度来更新模型的参数,包括编码器和解码器中的所有权重矩阵。
-
迭代优化:通过多次迭代的前向传播、损失计算、反向传播和参数更新,模型逐渐学习到最优的参数设置,以最小化损失函数并提高预测的准确性。
在整个训练过程中,Transformer 模型的参数不断更新,以更好地捕捉输入数据的特征,并提高对目标任务的性能。
2.Transformer中通过训练所优化的参数
在 Transformer 架构中,需要训练的参数主要包括以下几个部分:
参数 |
|
---|---|
自注意力机制(Self-Attention Mechanism)参数 |