GRU模块：nn.GRU层

原创

已于 2024-05-09 16:39:12 修改 · 2.7k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#gru #深度学习 #人工智能

于 2024-05-04 10:51:38 首次发布

摘要：

如果需要深入理解GRU的话，内部实现的详细代码和计算公式就比较重要，中间的一些过程及中间变量的意义需要详细关注。只有这样，才能准备把握这个模块的内涵和意义，设计初衷和使用方式等等。所以，仔细研究这个模块的实现还是非常有必要的。以此类推，对于其他的模块同样如此，只有把各个经典的模块内部原理、实现和计算调用都搞清楚了，才能更好的去设计和利用神经网络，建立内在的直觉和能力。

本文中介绍GRU内部的代码实现与数学表达式一致，在实际使用中，一般是通过调用API来实现，即语句：self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=dropout)，只需要设定相应的参数即可，免除了重新实现的繁琐，并且类似于pytorch框架中的API还做了计算上的优化，使用起来高效方便。

先从输入输出的角度看，即代码中的这一行：output, state = self.rnn(X) 。在 GRU（Gated Recurrent Unit）中，output 和 state 都是由 GRU 层的循环计算产生的，它们之间有直接的关系。state 实际上是 output 中最后一个时间步的隐藏状态。

代码示例

class Seq2SeqEncoder(d2l.Encoder):
"""⽤于序列到序列学习的循环神经⽹络编码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
dropout=0, **kwargs):
       super(Seq2SeqEncoder, self).__init__(**kwargs)
        # 嵌⼊层
       self.embeddi