在b站看贪心学院最后一节课从BERT到XLNET的分享
上面PPT可以看到
1.XLNET是Autoregressive模型而BERT是Auto-encoding模型,两种模型的对比解释见https://blog.csdn.net/qq_33876194/article/details/98943383
2.XLNET不同于BERT中的self Attention而使用Two-stream Self Attention和Permutation Language Model
https://blog.csdn.net/triplemeng/article/details/94437324
1.ELMO的缺点不是一个真正的双向,不能同时考虑两边 优点是一个训练和测试都一致的模型
2.BERT的缺点是训练和测试不一致,并且不是一个完备的概率函数模型,两个mask是假设独立的 优点是真正的双向模型
3.因此我们要综合上面的优缺点设计一个满足两个模型的优点并且没有上述两个模型的缺点
1.为什么使用双流注意力机制?
[3-2-1-4] [3-2-4-1] 上面的两个我们都是用3-2来预测,一个是1,一个是4,那么我们可以使用1,4的位置信息来进行区别