LSTM(Long-Short Term Memory,LSTM)

本文介绍了LSTM(长短期记忆网络)的起源,为何称为长短期记忆,以及其门控机制如何解决循环神经网络的长程依赖问题。LSTM通过遗忘门、输入门和输出门控制信息流动,能处理和预测长期依赖关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LSTM的来由?  

        为了改善循环神经网络的 长程依赖问题 一种非常好的解决方案是 引入 门控机制 来控制信息的累积速度 包括有选择地加入新的信息, 并有选择地遗忘之前累积的信息 这一类网络可以称为 基于门控的循环神经网络 Gated RNN). 基于门控的循环神经网络有很多, 其中,最经典的基于门控的循环神经网络是 长短期记忆网络,即 LSTM。

为什么叫LSTM(长短期记忆)?


        LSTM(Long-Short Term Memory,LSTM)的名称有些奇特,叫长短期记忆。这个实际反应了这个算法的原理:保持记忆的长短。例如我们人脑,我们的大脑并不是记忆所有的信息,有短期记忆,也有长期记忆。LSTM就是利用这个原理来设计的。

如何更深层地理解记忆        

长短期记忆是指长的 “短期记忆 ”.

LSTM的门控机制?

        
        门控机制 在数字电路中, gate )为一个二值变量{0, 1},0代表关闭状态 不许任何信息通过;1代表开放状态,允许所有信息通过。

        LSTM 网络引入 门控机制 (Gating Mechanism)来控制信息传递的路径。
        普通的RNN只是保持了短期的记忆,在LSTM中增加了对记忆的处理。这个增加的部分控制的逻辑比较复杂。简单的来说就是通过3个门:遗忘门、输入门和输出门来控制增加的记忆单元。需要注意的是,增加的门都是用来控制记忆单元的。
三个门的作用分别为:

1、遗忘门,决定了以前的记忆还保留多少(控制上一个时刻的内部状态需要遗忘多少信息
2、输入门,决定了当前的输入,有多少转换为记忆(控制当前时刻的候选状态有多少信息需要保存
3、输出门,决定了记忆有多少会输出(控制当前时刻的内部状态有多少信息需要输出给外部状 态
        以上可以称为记忆单元的处理。LSTM与普通的RNN相比,增加了记忆单元的输出。

什么是LSTM?

        一句话介绍LSTM,它是RNN的进阶版,如果说RNN的最大限度是理解一句话,那么LSTM的最大限度则是理解一段话,详细介绍如下:

        LSTM,全称为长短期记忆网络(Long Short Term Memory networks),是一种特殊的RNN,能够学习到长期依赖关系。长短期记忆网络论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。 

普通循环神经网络结构图与LSTM结构图

        所有的循环神经网络都有着重复的神经网络模块形成链的形式。在普通的RNN中,重复模块结构非常简单,例如一个tanh层。其结构如下:

在这里插入图片描述

        LSTM避免了长期依赖的问题。可以记住长期信息!LSTM内部有较为复杂的结构。能通过门控状态来选择调整传输的信息,记住需要长时间记忆的信息,忘记不重要的信息,其结构如下: 

在这里插入图片描述

可通过观看以下视频来学习上述LSTM结构

LSTM结构分析

 

 LSTM网络结构分析

图6.7 LSTM网络的循环单元结构

————————————————
部分参考自:https://blog.csdn.net/qq_38251616/article/details/125613533

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值