《深度学习进阶 自然语言处理》学习笔记(2)

本文探讨了RNN模型如何处理语言时序信息,重点介绍了RNN的结构、损失函数和困惑度评价,以及LSTM的出现,解决了梯度消失和爆炸问题,通过多层LSTM和门控机制提升性能。还涉及seq2seq模型在文本生成和机器翻译中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前篇链接 link

第五章 RNN

前面介绍的word2vec是前馈神经网路无法很好的处理时序信息,引入RNN来解决问题

语言模型

目标:求后验概率 P( w_t | w_1, W_2, …, W_t-1 ),从而求出语言模型的联合概率

RNN模型

模型架构

在这里插入图片描述

  1. 输入:将时序单词序列 { w0, w1, w2, …, wt } 在空间上展开,依次输入到对应的RNN单元中(即上图等号右侧的一个个RNN框
  2. 输出:对于输入单词 w_n,输出 w_n 接下来出现的一个单词的概率向量

一个典型RNN单元的计算图

在这里插入图片描述
h_prev为前一个RNN单元输出的隐藏状态,x为当前时序下输入的单词向量,tanh为激活函数

损失函数的设置

在这里插入图片描述

  1. 总结——基于时序序列输出的结果序列 { x0, x1, … , xT-1 } 与正确标签{ t0, t1, … , tT-1 }的逐元素二分类交叉熵损失的求和取均值

评价指标

  1. 困惑度

总结

  1. RNN 具有环路,可以记忆隐藏状态;

  2. 通过展开 RNN 的循环,可以将其解释为多个 RNN 单元水平方向上延伸的神经网络,可以通过基于时间的反向传播进行学习(BPTT);

  3. 在学习长时序数据时,要生成长度适中的数据块,进行以块为单位的截断 BPTT 学习(Truncated BPTT);

  4. Truncated BPTT 只截断反向传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值