【免费】机器学习与深度学习面试系列十九（Transformer）1资源-CSDN下载

需积分: 0 193 浏览量更新于2022-08-03 收藏 1.79MB PDF 举报

机器学习与深度学习面试系列十九（Transformer）1 在机器学习和深度学习领域，Transformer是一个非常重要的模型，它revolutionized了自然语言处理（NLP）领域。今天，我们将深入探讨Transformer的结构和工作原理。让我们从注意力机制开始。注意力机制是一种机制，它可以让模型:focus on certain parts of the input data，而忽略其他部分。在Transformer中，我们使用自注意力机制，这意味着模型可以根据输入数据学习如何关注不同部分的重要性。自注意力机制是如何工作的呢？我们需要定义三个矩阵：Q（Query）、K（Key）和V（Value）。然后，我们使用Q和K的点积作为系数A，A就是基于这组Q和K形成的注意力分布下对V中各个分量受关注的程度。我们使用这个关注程度作为权重对V进行加权平均。那么，Q、K和V是如何来的呢？实际上，我们通常使用自注意力机制来生成Q、K和V。对于输入X，我们首先使用矩阵相乘得到Q、K和V，然后使用上述注意力机制公式计算加权平均的V。注意力机制解决了什么问题呢？在很多时候，深度学习都是表示学习。通过神经网络，再结合一些归纳偏置，我们可以自动地从复杂样本中学习到特征之间的关系。然而，传统的卷积神经网络和循环神经网络存在一些限制，例如只能学习到短距离的依赖关系。自注意力机制正是允许“动态”地生成不同连接的权重，来解决长距离依赖问题。现在，让我们来看看Transformer的结构。Transformer的结构可以分为左右两侧，分别是Encoder部分和Decoder部分。这两个部分都包含Token Embedding、FFN、残差连接、层归一化和Positional Encodings等组件。 Token Embedding是将输入以高维的one-hot编码映射到低维空间，可以节约空间，也让输入语义更清楚。 Positional Encodings是用来编码词序信息的，因为Transformer解除了时序依赖，需要引入位置编码来编码词序信息。残差连接和层归一化是为了克服梯度消失问题，提高模型训练效率。 FFN是一层全连接层，中间加一个激活层，可以对单个word的embedding做全连接，但不能学习word之间的相关依赖关系。 Transformer的结构是非常灵活的，可以解决长距离依赖问题，使得模型能够学习到更复杂的关系。在实际操作中，我们可以使用Transformer来解决各种自然语言处理任务，例如机器翻译、文本分类、命名实体识别等。 Transformer是一个非常强大且灵活的模型，它可以解决长距离依赖问题，学习到更复杂的关系，并且可以应用于各种自然语言处理任务。

机

器

学

习

与

深

度

学

习

⾯

试

系

列

⼗

九

（

orm

）

什么

是

注

意

⼒

机

制

？

注

意

⼒

⼀

般

分

为

两

种

：

⾃

下

⽽

上

的

⽆

意

识

的

注

意

⼒

，

称

为

基

于

显

著

性

的

注

意

⼒

。

⾃

上

⽽

下

的

有

意

识

的

注

意

⼒

，

称

为

聚

焦

式

注

意

⼒

。

⼀个

和

注

意

⼒

有

关

的

例

⼦

是

鸡

尾

酒

会

效

应

。

当

⼀个

⼈

在

吵

闹

的

鸡

尾

酒

会

上

和

朋

友

聊

天

时

，

尽

管

周

围噪

⾳

⼲

扰

很

多

，

他

还

是

可

以

听

到

朋

友

的

谈

话

内

容

，

⽽

忽

略

其

他⼈

的

声

⾳

(

聚

焦

式

注

意

⼒

)

。

同

时

，

如

果未

注

意

到

的

背

景

声

中

有

重

要

的

词

(

⽐

如

他

的

名

字

)

，

他会

⻢

上

注

意

到

(

显

著

性

注

意

⼒

)

。

对

于

基

于

显

著

性

的

注

意

⼒

，

其

实

我

们

并

不

陌

⽣

，

在

之

前

CNN

中

的

最

⼤

池

化

，

LSTM

和

中

的

⻔

控

机

制

，

其

本

质

都

是

基

于

显

著

性

的

注

意

⼒

（

关

注

超

过

明显

超

过

周

围

的

或

者

⾼

于

⼀

定

阈

值

的

输

⼊

）

。

后

⾯

我

们

所

说

的

都

是

聚

焦

式

注

意

⼒

，

主

动

去

关

⼼

与

之

相

关

的

部

分

输

⼊

，

尽

量

忽

略

⽆

关

的

部

分

。

其

实

听

起

来

很

⾼

端

的

想

法

，

实

现

起

来

⾮

常

朴

素

：

给

定

(

查

询

(

键

(

值

)

，

使

⽤

和

的

(

放

缩

)

点

积

作为

系

数

(

)

，

这

个

系

数

就

是

基

于

这

⼀

组

和

形

成

的

注

意

⼒分

布

下

对

中

各

个

分

量

受

关

注

的

程

度

，

利

⽤

这

个

关

注

程

度

作为

权

重

对

进

⾏

加

权

平

均

。

在

实

际

操

作中

我

们

只

有

输

⼊

，

那

么

从

哪

来

的

呢

？

实

际

上

我

们

通

常

使

⽤

的

是

⾃

注

意

⼒

机

制

。

对

于

输

⼊

，

我

们

先

由

矩

阵

相

乘

得

到

，

然

后

利

⽤

上

述

注

意

⼒

机

制公

式

计

算

加

权

平

均

的

。

由

于

和

都

是

从

⾃

身

得

来

的

，

所

以

我

们

把

这

种

⽅

法

叫

做

⾃

注

意

⼒

机

制

。

注

意

⼒

机

制到

底

解

决

了什么

问题

？

剩余10页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

小米智能生活

粉丝: 45

机器学习与深度学习面试系列十九（Transformer）1

深度学习-Transformer实战系列课程

深度学习-Transformer实战系列

深度学习-Transformer实战系列视频课程

Transformer深度讲解，进一步给出其在NLP和CV下的发展，共95页ppt，全网最好的讲解，没有之一

深度学习-Transformer实战系列.rar

nlp_notes:自然语言处理学习笔记：机器学习及深度学习原理和示例，基于Tensorflow和PyTorch框架，Transformer，BERT，ALBERT等最新预训练模型以及源代码详解，以及基于预训练模型进行各种自然语言处理任务。模型部署

基于机器学习与深度学习不同算法(crf_HMM_gru_Transformer等)的中文分词实现python源码+说明.zip

深度学习 图像 Transformer 系列训练 window mmcv 编译库

机器学习与深度学习面试系列九（降维）1

机器学习、深度学习

机器学习面试题

最新版的机器学习和深度学习面试题目， 涉及机器学习和深度学习理论和实践

机器学习-深度学习

机器学习笔记-Transformer

Transformer学习

人工智能深度学习面试指南

机器学习面试约300题系列

Transformer应用实践（学习篇）

DL-面试笔记：深度学习机器学习

机器学习从基本到深度学习优化

随波逐流CTF编码工具 V6.5 20250115

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Chrome Header Editor 插件

BurpSuite V2024.1.1专业版

软件工程导论(第六版)课后习题答案1

BurpLoaderKeygen.jar.zip

59、yolov5+rk3399pro/yolov7+rk3588 支持batchsize=3仿真测试和实体开发板上测试

mMatnrBeforeImg.setImageBitmap();写在括号里有效的内容是什么

最新资源

深度学习图像 Transformer 系列训练 window mmcv 编译库

最新版的机器学习和深度学习面试题目，涉及机器学习和深度学习理论和实践