
深度学习
文章平均质量分 82
MaTF_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Bert
上图中,上面的黑框中,黄色的 model 里的参数就是 pre-train 得到的 Bert 参数,不同颜色的 Task Specific 是负责特定任务的参数,使用随机初始化即可;下面的黑框表示模型经过不同特定任务的样本的训练后,得到了不同的模型。如上图所示,Bert 采用了 Transformer Encoder 的结构,在 pre-train 阶段会拿到一些被“污染”的文本资料,然后试图还原被“污染”的部分。情形三:输入两个向量序列,输出一个向量(如判断两个句子是矛盾的还是不矛盾的)原创 2023-07-03 10:19:55 · 825 阅读 · 0 评论 -
Self-attention & Transformer
如上图所示,Decoder 最开始接受 Encoder 的输出和一个 BEGIN 作为输入,输出为一个向量,然后根据输出向量选择可能性最大的字,并将该字加入到 Decoder 的输入中,以此类推,直到 Decoder 输出的向量最可能为 END 为止。不难看出,虽然 Self-attention 引入了向量之间的关系,但却没有引入向量的位置信息(如句子的第一个单词为动词的概率较小),这需要通过 Positional Encoding 来解决。引入了输入向量之间的关系,那么如何表示向量之间的多种关系呢?原创 2023-07-02 20:57:40 · 715 阅读 · 0 评论 -
RNN & LSTM
" 这句话,模型对 Taipei 的输出也会是 destination,但我们希望它是 departure。LSTM 可以解决 RNN 梯度消失的问题,因为如果不考虑遗忘门,距离再远的梯度也可以通过。的偏导会逐渐“遗忘”距离较远的梯度,所以模型很难学习到距离较远的依赖关系。时,前面的梯度对当前的影响会随着距离增加而指数级增大,甚至变成 NaN.这部分的公式和参考资料里的不太一样,但我感觉参考资料里的公式不太严格吧?注意到,RNN 与一般的神经网络的主要区别在与将隐层的。即为 RNN 的参数,与。原创 2023-07-02 19:05:43 · 2061 阅读 · 0 评论