LSTM（Long-Short Term Memory,LSTM）

我不是程序员‍

已于 2023-08-20 10:49:59 修改

阅读量165

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： lstm 人工智能深度学习

于 2023-08-19 17:35:53 首次发布

本文链接：https://blog.csdn.net/m0_48241022/article/details/132379005

机器学习专栏收录该内容

34 篇文章

订阅专栏

本文介绍了LSTM（长短期记忆网络）的起源，为何称为长短期记忆，以及其门控机制如何解决循环神经网络的长程依赖问题。LSTM通过遗忘门、输入门和输出门控制信息流动，能处理和预测长期依赖关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LSTM的来由？

为了改善循环神经网络的长程依赖问题，一种非常好的解决方案是引入门控机制来控制信息的累积速度，包括有选择地加入新的信息，并有选择地遗忘之前累积的信息．这一类网络可以称为基于门控的循环神经网络（ Gated RNN）．基于门控的循环神经网络有很多，其中，最经典的基于门控的循环神经网络是长短期记忆网络，即 LSTM。

为什么叫LSTM（长短期记忆）？

LSTM（Long-Short Term Memory，LSTM）的名称有些奇特，叫长短期记忆。这个实际反应了这个算法的原理：保持记忆的长短。例如我们人脑，我们的大脑并不是记忆所有的信息，有短期记忆，也有长期记忆。LSTM就是利用这个原理来设计的。

如何更深层地理解记忆：

长短期记忆是指长的 “短期记忆 ”．

LSTM的门控机制？

门控机制 在数字电路中，门（ gate ）为一个二值变量{0, 1}，0代表关闭状态，不许任何信息通过；1代表开放状态，允许所有信息通过。

LSTM 网络引入门控机制（Gating Mechanism）来控制信息传递的路径。

普通的RNN只是保持了短期的记忆，在LSTM中增加了对记忆的处理。这个增加的部分控制的逻辑比较复杂。简单的来说就是通过3个门：遗忘门、输入门和输出门来控制增加的记忆单元。需要注意的是，增加的门都是用来控制记忆单元的。

三个门的作用分别为：

1、遗忘门，决定了以前的记忆还保留多少（控制上一个时刻的内部状态需要遗忘多少信息）
2、输入门，决定了当前的输入，有多少转换为记忆（控制当前时刻的候选状态有多少信息需要保存）
3、输出门，决定了记忆有多少会输出（控制当前时刻的内部状态有多少信息需要输出给外部状态）
以上可以称为记忆单元的处理。LSTM与普通的RNN相比，增加了记忆单元的输出。