Transformer中的位置编码PE(position encoding)

原创

已于 2024-06-02 00:34:01 修改 · 879 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #位置编码PE

于 2024-06-01 22:56:24 首次发布

Transformer中的位置编码PE(position encoding)

对应视频讲解：

【【代码详解】扩散模型中如何融合时间信息t到图x上（x+t），Transformer中的位置编码PE(position encoding)】

nn.Embedding使用：http://t.csdnimg.cn/m2nKN

1.提出背景

transformer模型的attention机制并没有包含位置信息，即一句话中词语在不同的位置时在transformer中是没有区别的

2.解决背景

给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding（PE），与embedding维度一致

embedding维度：

句子：词向量的维度大小，如512

图片：通道数

实际应用中，会对位置信息向量如[1,2,…,16]先进行位置编码，位置编码的维度可以先保持与句子编码维度一致，如512。再通过一个线性层，将维度降为需要的通道数，最后再进行信息合并。

3. 创建一个位置编码器PE

需要的输入设置

序列的最大长度 max_seq_len，如1000

编码向量的维度 d_model，如512或128

主体逻辑

计算PE矩阵

重新定义嵌入层：将嵌入层的权重替换为PE（不可训练）

PE计算
PE为二维矩阵，大小跟输入embedding的维度一样，行表示词语，列表示词向量；pos 表示词语在句子中的位置;dmodel表示词向量的维度；i表示词向量的位置。因此，上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵，然后加到input embedding中去，这样便完成位置编码的引入了。

参考：https://blog.csdn.net/qq_34771726/article/details/102918440

class PositionalEncoding(nn.Module):

    def __init__(self, max_seq_len: int, d_model: int):
        super().__init__()

        # Assume d_model

最低0.47元/天解锁文章

200万优质内容无限畅学