Transformer编码器和解码器的输入与输出

要点:

(1)解码器接收来自编码器的输出(向量)作为上下文信息(向量)

(2)在解码器的"编码器-解码器注意力"子层之前,编码器的输出向量会被线性变换(通常通过两个不同的权重矩阵)分别转换为键(Keys, K)和值(Values, V)。这一变换帮助模型学习如何有效地利用这些向量来指导解码过程中的注意力分配

(3)解码器在每个时间步也会生成自己的向量,称为查询(Query, Q),这代表了解码器当前状态下的注意力焦点或意图。

1.Transformer 训练的反馈机制

Transformer 训练的反馈机制:

  1. 前向传播:输入数据通过 Transformer 模型的编码器和解码器进行处理,生成最终的输出。

  2. 计算损失:模型的输出与真实的目标值之间的差异通过损失函数(如交叉熵损失)来计算损失值。

  3. 反向传播:损失值利用反向传播算法在整个网络中传播,计算每个参数的梯度。

  4. 参数更新:利用梯度下降算法或其变种(如 AdamW 优化器)根据梯度来更新模型的参数,包括编码器和解码器中的所有权重矩阵。

  5. 迭代优化:通过多次迭代的前向传播、损失计算、反向传播和参数更新,模型逐渐学习到最优的参数设置,以最小化损失函数并提高预测的准确性。

       在整个训练过程中,Transformer 模型的参数不断更新,以更好地捕捉输入数据的特征,并提高对目标任务的性能。

2.Transformer中通过训练所优化的参数

     在 Transformer 架构中,需要训练的参数主要包括以下几个部分:

参数

自注意力机制(Self-Attention Mechanism)参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值