贪心学院从BERT到XLNET

最新推荐文章于 2025-04-08 11:16:29 发布

FIXLS

最新推荐文章于 2025-04-08 11:16:29 发布

阅读量552

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_15113429/article/details/104483684

NLP 专栏收录该内容

127 篇文章

订阅专栏

本文探讨了BERT与XLNET两种自然语言处理模型的对比，BERT为真正双向模型但训练测试不一致，XLNET作为自回归模型，通过双流注意力机制和排列语言模型改进了上述不足。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

张俊林的详细解释

在b站看贪心学院最后一节课从BERT到XLNET的分享

上面PPT可以看到

1.XLNET是Autoregressive模型而BERT是Auto-encoding模型,两种模型的对比解释见https://blog.csdn.net/qq_33876194/article/details/98943383

2.XLNET不同于BERT中的self Attention而使用Two-stream Self Attention和Permutation Language Model

https://blog.csdn.net/triplemeng/article/details/94437324

1.ELMO的缺点不是一个真正的双向，不能同时考虑两边优点是一个训练和测试都一致的模型

2.BERT的缺点是训练和测试不一致，并且不是一个完备的概率函数模型，两个mask是假设独立的优点是真正的双向模型

3.因此我们要综合上面的优缺点设计一个满足两个模型的优点并且没有上述两个模型的缺点

1.为什么使用双流注意力机制？

[3-2-1-4] [3-2-4-1] 上面的两个我们都是用3-2来预测，一个是1，一个是4，那么我们可以使用1,4的位置信息来进行区别

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。