注意力入门
普通注意力机制的了深入理解
因为GRU每次输入都是一个词一个词的输入,那么普通的Seq2seq框架 就需要每个词算一遍 注意力权重并对解码器输出进行bmm计算,得到加权的解码器词向量输出 这样解码器的GRU每次解码的时候不是仅仅只考虑当前的一个词,而是考虑前后3个词甚至更多个词才会将这个词翻译
前向传播的结构就是这样,那么反向传播就是整个学习过程的精华,
解码器GRU
通过logsoftmax计算概率损失, 这样会知道每个词翻译错误的误差 然后向下传播
知道每个词翻译的误差后 , GRU的权重矩阵分两部分学习
1.单一时间步学习
这里想说的概念是在不考虑时间步循环的gru权重矩阵中 , 它每次翻译的机制要学习的不是 输入一个词 反应对应的词 ,这是查字典. 而应该是输入一个词 这个词是注意力机制加权后的词, 所以它一个词可以代表多个词, 那么就需要学习 多个词的情况下 这个词应该被翻译成什么 我们把这种抽象叫做语义
不好理解就举个例子: ‘xxx早上硬不起来’ 那么如果没有前后文的情况下,这个硬不起来很难消除歧义, 可以理解为困得起不来,也可以理解为阳痿… 那么注意力机制就解决了这种情况, 它将 "昨天晚上xxx3点睡的’’ 这个高纬语义添加到这个词中了, 那么翻译的时候就不会翻译错了…