活动介绍

机器学习与深度学习面试系列十九(Transformer)1

preview
需积分: 0 6 下载量 193 浏览量 更新于2022-08-03 收藏 1.79MB PDF 举报
机器学习与深度学习面试系列十九(Transformer)1 在机器学习和深度学习领域,Transformer是一个非常重要的模型,它revolutionized了自然语言处理(NLP)领域。今天,我们将深入探讨Transformer的结构和工作原理。 让我们从注意力机制开始。注意力机制是一种机制,它可以让模型:focus on certain parts of the input data,而忽略其他部分。在Transformer中,我们使用自注意力机制,这意味着模型可以根据输入数据学习如何关注不同部分的重要性。 自注意力机制是如何工作的呢?我们需要定义三个矩阵:Q(Query)、K(Key)和V(Value)。然后,我们使用Q和K的点积作为系数A,A就是基于这组Q和K形成的注意力分布下对V中各个分量受关注的程度。我们使用这个关注程度作为权重对V进行加权平均。 那么,Q、K和V是如何来的呢?实际上,我们通常使用自注意力机制来生成Q、K和V。对于输入X,我们首先使用矩阵相乘得到Q、K和V,然后使用上述注意力机制公式计算加权平均的V。 注意力机制解决了什么问题呢?在很多时候,深度学习都是表示学习。通过神经网络,再结合一些归纳偏置,我们可以自动地从复杂样本中学习到特征之间的关系。然而,传统的卷积神经网络和循环神经网络存在一些限制,例如只能学习到短距离的依赖关系。自注意力机制正是允许“动态”地生成不同连接的权重,来解决长距离依赖问题。 现在,让我们来看看Transformer的结构。Transformer的结构可以分为左右两侧,分别是Encoder部分和Decoder部分。这两个部分都包含Token Embedding、FFN、残差连接、层归一化和Positional Encodings等组件。 Token Embedding是将输入以高维的one-hot编码映射到低维空间,可以节约空间,也让输入语义更清楚。 Positional Encodings是用来编码词序信息的,因为Transformer解除了时序依赖,需要引入位置编码来编码词序信息。 残差连接和层归一化是为了克服梯度消失问题,提高模型训练效率。 FFN是一层全连接层,中间加一个激活层,可以对单个word的embedding做全连接,但不能学习word之间的相关依赖关系。 Transformer的结构是非常灵活的,可以解决长距离依赖问题,使得模型能够学习到更复杂的关系。 在实际操作中,我们可以使用Transformer来解决各种自然语言处理任务,例如机器翻译、文本分类、命名实体识别等。 Transformer是一个非常强大且灵活的模型,它可以解决长距离依赖问题,学习到更复杂的关系,并且可以应用于各种自然语言处理任务。
身份认证 购VIP最低享 7 折!
30元优惠券