Attention is all you need

最新推荐文章于 2024-11-01 16:04:33 发布

檀良月

最新推荐文章于 2024-11-01 16:04:33 发布

阅读量115

点赞数 1

CC 4.0 BY-SA版权

分类专栏：计算机视觉文章标签：神经网络自然语言处理深度学习

本文链接：https://blog.csdn.net/m0_47135641/article/details/120226187

计算机视觉专栏收录该内容

7 篇文章

订阅专栏

Transformer模型革新了序列建模，摒弃了RNN和CNN，完全依赖于注意力机制。其核心包括点乘注意力和多头注意力，通过位置编码引入序列顺序信息。FFN作为辅助，用于提升模型表达能力。Transformer在长序列处理中表现出色，尤其适用于需要捕捉不同部分关注度的任务，如情感分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer

在这里插入图片描述

在transformer之前，RNN，LSTM,GRU已经在序列模型和翻译工作中建立了很多优秀的模型。transformer是第一个完全依赖于注意力去计算输入输出表示的模型，它没有用RNN，CNN。

注意力函数把query,key,value作为输入，再计算值的权重，然后计算值的权重和。

注意力函数普遍是用两种，分别是加法注意力和点乘注意力，他们两者效果取决于 $d_k$ 的大小。 $d_k$ 较小时候，两者效果差不多， $d_k$ 较大时，加法机制优于乘法机制。在Transformer用的是点乘注意力，这是因为矩阵乘法的代码优化，使得它更快，占用内存更小

Scaled Dot_Product Attention and Multi-Head Attention

Scaled Dot_Product Attention:
$Attention(Q,K,V)=softmax({QK^T \over \sqrt{d_k}})V$
Multi-Head Attention:
$MultiHead(Q,K,V)=Concat(head_1,head_2,...,head_h)W^O~\\ where head_i =Attention(QW_i^Q,KW_i^K,VW_i^V)$

$W^Q_i=\epsilon\R^{d_{model}\times d_k},W_i^K\epsilon\R^{d_{model}\times d_k}，W_i^V\epsilon\R^{d_{model}\times d_v}$

其中Multi-Head Attention 可以使用三种不同的方式，详情见论文3.2.3

Position-wise Feed-Forward Networks

$FFN(x)=max(0,xW_1+b_1)W_2+b_2$

相当于用了两个全连接的神经网络，另一个理解方式是，可以把它当作两次核为1的CNN层，输入输出维度 $d_model=512$ ,内部层维度 $d_ff=2048$

Embeddings and Softmax

使用Embedding把输入核输出序列转换为维度为 $d_{model}$ , 使用softmax函数转换解码器的输出到预测序列类别的可能性

Positional Encoding （位置编码）

由于transformer不包含recurrence和CNN，就不能使用到序列的位置信息。为了让模型使用序列的顺序信息，transformer给模型注入了与序列绝对位置相关的信息。最后，作者添加了“positional encodings”到编码器和解码器底部的input embedding。它和Embedding有一样的维度 $d_{model}$ ,这样就可以对两个进行add操作。positional encodings可以有很多选择，自适应的和固定的，见论文参考文献[9]

论文对自适应的positional embeddings做了实验，发现两个版本效果相似，最后选择了正弦版本，因为它可能允许模型推断出比在训练中遇到的更长的序列长度。
$PE_{(pos,2i)}=sin(pos/10000^{{2i}/d_{model}})~\\ PE_{(pos,2i+1)}=cos(pos/10000^{{2i}/d_{model}})$
Why Self-attention

对于一段文本序列，seq2seq模型通常会先用某种机制对该序列进行编码，通过降维方式将它encode成一个固定长度的向量，用于输入到后面的全连接层，而seq2seq模型之前一般会用CNN，RNN（LSTM,GRU）对序列数据进行编码，然后采用polling或RNN直接取最后一个t时刻的hidden state作为句子的向量输出。

然后常用的编码方法不能对长序列有较好的处理，无法很好体现长序列的不同部分的关注程度。例如：I hate you! 如果做情感分析，明显对hate词应该关注更多。用CNN，RNN当然可以编码这种信息，但是序列的长度很长，就没有一个好的效果了，所以Transformer的优势就体现出来了
Training