Encoder和Decoder的详细介绍

科学禅道

已于 2024-05-15 11:16:39 修改

阅读量8.8k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：研究和研发范式：预训练和微调深度学习的模块化设计理念文章标签：人工智能深度学习自然语言处理

于 2024-02-26 14:11:18 首次发布

本文链接：https://blog.csdn.net/xw555666/article/details/136296084

本文详细阐述了编码器在机器学习中将输入数据转换为抽象表示的过程，强调了其在捕捉上下文信息和提高模型性能中的作用。同时介绍了解码器如何将编码器的表示映射回原始数据空间，探讨了不同类型的解码器及其在生成、分类和翻译任务中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

编码器，顾名思义，将输入进行编码。编码器产生的表示形式通常具有更高的抽象级别，这有助于模型理解和处理输入数据。比如：在序列到序列学习任务中，编码器可将长度可变的输入序列 $x_{1},...,x_{T}$ 转换成形状固定的上下文变量 $\textbf{c}$ ，这个转换过程，实质上将输入序列的信息在该上下文变量中进行编码。

解码器,用于将编码器得到的抽象表示重新映射回原始数据空间或者目标数据空间。比如：将隐状态 $\textbf{s}_{{t}'}$ 用来计算输出 $\textbf{y}_{{t}'}$ 的概率，中间经过 $\textbf{c}\rightarrow \textbf{s}\rightarrow y$ （编码器隐状态，解码器隐状态，最终输出的概率）的计算过程。解码器的主要功能是接受来自编码器的隐藏表示或者特征向量，并将其转换为原始数据的形式，以便进行后续的任务，比如生成、分类、翻译等。

广义上讲，傅里叶变换是一种编码方式，信号编码后，经过滤波器处理，最后用傅里叶逆变换进行解码。

1.Encoder（编码器）

编码器（Encoder）通常指的是在机器学习和神经网络领域中的一种组件或模型结构，用于将输入数据转换为某种表示形式，通常是向量或矩阵，以便后续处理。这种表示形式通常具有更高的抽象级别，有助于模型理解和处理输入数据。

在编码器中，输入序列到隐状态的计算过程涉及将输入序列的每个元素通过一个或多个循环神经网络（RNN）层进行处理。以下是这个过程的一般数学表达式和步骤：

1. **嵌入层**：首先，输入序列中的每个词被转换为一个嵌入向量。如果输入序列的词索引为 $ w_t $，则嵌入向量表示为：

\[ e_t = Embedding(w_t; \theta_e) \]

其中，$ e_t $ 是时间步 $ t $ 的嵌入向量，$ \theta_e $ 是嵌入层的参数。

2. **位置编码**：由于原始的RNN模型不具备捕捉序列顺序的能力，通常会加入位置编码来提供词的位置信息：

\[ e_t' = e_t + PositionalEncoding(t) \]

位置编码是一个与词嵌入同样维度的向量，随位置 $ t $ 变化。

3. **通过RNN层**：嵌入向量 $ e_t' $ 通过RNN层，更新隐状态 $ h_t $。对于一个基本的RNN单元，更新公式为：

\[ h_t = \tanh(W_{hh} \cdot h_{t-1} + W_{xe} \cdot e_t' + b_h) \]

其中，$ h_t $ 是时间步 $ t $ 的隐状态，$ h_{t-1} $ 是前一时间步的隐状态，$ W_{hh} $ 和 $ W_{xe} $ 是权重矩阵，$ b_h $ 是偏置项。

4. **