几种常用的相对位置编码

最新推荐文章于 2025-06-26 09:42:12 发布

原创最新推荐文章于 2025-06-26 09:42:12 发布 · 3.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #自然语言处理

NLP 同时被 2 个专栏收录

7 篇文章

订阅专栏

bert

2 篇文章

订阅专栏

本文详细介绍了相对位置编码在机器学习和深度学习中的使用，特别是自然语言处理领域。从经典式到XLNET式、T5式、DeBERTa式，逐一阐述各种方法的原理和差异，并提及FLAT模型在中文NER中的应用，强调了位置编码在模型中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要参考苏神blog,传送门，自己整理下加深记忆

绝对位置编码

绝对位置编码一般形式的带绝对位置编码的Attention形式如下：
$\left\{ \begin{aligned} q_i & = &(x_i+p_i)W_Q \\ k_i & = & (x_i+k_i)W_K\\ v_i & = & (x_i+v_i)W_V\\ a_{i,j} & = & softmax(q_ik_{j}^{T})\\ o_i & = &\sum_ja_{i,j}v_j \end{aligned} \right.$
其中softmax表示对 $j$ 那一维归一化，这里的向量都是指行向量。将 $q_ik_j^T$ 展开可得：
$q_ik_j^T=(x_i+p_i)W_QW_K^T(x_j+pj)^T=(x_iW_Q+p_iW_Q)(W_K^Tx_j^T+W_K^Tp_j^T)$

相对位置编码

经典式

相对位置编码有绝对位置编码启发而来，相对位置编码起源于Google的论文《Self-Attention with Relative Position Representations》，华为的NEZHA也用了这种位置编码。Google把第一项位置去掉，第二项 $p_jW_K$ 改为二元位置向量 $R_{i,j}^K$ ，即：
$a_{i,j}=softmax(x_iW_Q(x_jW_K+R_{i,j}^K)^T)$
$o_i$ 的计算方式变为：
$o_i = \sum_ja_{i,j}(x_jW_K+R_{i,j}^V)$

XLNET式

起源于Transformer-XL的论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》。将绝对位置编码中的 $q_ik_j^T$ 完全展开可得到：
$x_iW_QW_K^Tx_j^T+x_iW_QW_K^Tp_j^T+p_iW_QW_K^Tx_j^T+p_iW_QW_K^Tp_j^T$
于是transformer-XL将 $p_j$ 替换为相对位置向量 $R_{i-j}^T$ ，两个 $p_i$ 替换成可训练的向量 $u, v$ :
$x_iW_QW_K^Tx_j^T+x_iW_QW_K^TR_{i-j}^T+uW_QW_K^Tx_j^T+vW_QW_K^TR_{i-j}^T$

并且直接去掉了 $v_j$ 的位置偏置，直接令 $o_i=\sum_ja_{i,j}x_jW_V$

T5式

来源于文章《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，该篇文章认为输入纤细与位置信息应该是独立（解耦）的，那么它们就不应该有过多的交互，所以“输入-位置”，“位置-输入”两项的Attention可以删掉，而 $p_iW_QW_K^Tp_j^T$ 只是一个依赖于 $(i, j)$ 的标量，可以直接将它作为参数训练出来，即简化为:
$x_iW_QW_K^Tx_J^t+\beta _{i,j}$ ，与XL一样在 $v_j$ 上的位置偏置直接被去掉。
但与一般不同的是，不同于常规位置编码对将 $\beta _{i,j}$ 视为 $i - j$ 的函数进行截断的做法，T5对相对位置进行了“分桶”处理，即相对位置是 $i - j$ 的实际上对应的是 $f (i - j)$ 的位置，映射关系如下：
在这里插入图片描述

DeBERTa式

起源于《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》，T5是剔除掉第2和第3项，而DeBERTa则去掉第四项：
$q_ik_j^T=x_iW_QW_K^Tx_j^T+x_iW_QW_K^TR_{i,j}^T+R_{j,i}W_QW_K^Tx_j^T$

FLAT: Chinese NER Using Flat-Lattice Transformer（ACL2020）

FLAT也采用相对位置编码，attention矩阵的计算方式如下:
$A_{i,j}^{*}=E_{x_i}W_qW_{k}^{T}E_{x_j}^{T} + E_{x_i}W_{q}W_{k,R}^{T}R_{i,j}^{T} + uW_{k,E}^{T}E_{x_j}^{T} + vW_{k,R}^{T}R_{i,j}^{T}$
并提出了四中相对距离的表示方式，同时考虑字符和词之间的关系：
$\left\{ \begin{aligned} d_{ij}^{hh} & = & head[i]-head[j] \\ d_{ij}^{ht} & = & head[i]-tail[j]\\ d_{ij}^{th} & = & tail[i]-head[j]\\ d_{ij}^{tt} & = & tail[i]-tail[j] \end{aligned} \right.$
相对位置的encoding为：
在这里插入图片描述
的计算方式与vanilla Transformer相同。