时间序列的反向传播算法（BPTT）

最新推荐文章于 2025-06-23 09:16:34 发布

原创最新推荐文章于 2025-06-23 09:16:34 发布 · 2.6k 阅读

6 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

17 篇文章

订阅专栏

本文深入解析了时间序列预测中的反向传播算法BPTT（Back-Propagation Through Time），阐述了其在长时序依赖下的计算挑战及解决方案Truncated BPTT。通过详细公式推导，揭示了参数共享对网络预测的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

时间序列的反向传播算法

BPTT ： Back-Propagation Through Time
在这里插入图片描述
$∂L∂U=∑t∂Lt∂U\frac{\partial L}{\partial U} = \sum_t\frac{\partial L_t}{\partial U}$

例如t=4 时，

$∂L4∂U=∂L4∂y4∂y4∂h4∂h4∂U\frac{\partial L_4}{\partial U} =\frac{\partial L_4}{\partial y_4} \frac{\partial y_4}{\partial h_4} \frac{\partial h_4}{\partial U}$

where $h_4 = tanh(Wh_3 + Ux_4)$

注意到 h3也依赖U
$∂Lt∂U=∑s=0t∂Lt∂yt∂yt∂ht∂ht∂hs∂hs∂U\frac{\partial L_t}{\partial U} = \sum_{s=0}^t\frac{\partial L_t}{\partial y_t} \frac{\partial y_t}{\partial h_t} \frac{\partial h_t}{\partial h_s}\frac{\partial h_s}{\partial U}$

参数共享是双刃剑，网络预测时具有平稳性，但是梯度计算的时候会有依赖。

随着t和s的距离越来越大，梯度传播的计算，长时序的依赖不足。
$∂ht∂hs=∂ht∂ht−1∂ht−1∂ht−2...∂hs+1∂hs\frac{\partial h_t}{\partial h_s} = \frac{\partial h_t}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial h_{t-2}} ... \frac{\partial h_{s+1}}{\partial h_{s}}$