贪心学院从BERT到XLNET

本文探讨了BERT与XLNET两种自然语言处理模型的对比,BERT为真正双向模型但训练测试不一致,XLNET作为自回归模型,通过双流注意力机制和排列语言模型改进了上述不足。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

张俊林的详细解释

在b站看贪心学院最后一节课从BERT到XLNET的分享

上面PPT可以看到

1.XLNET是Autoregressive模型而BERT是Auto-encoding模型,两种模型的对比解释见https://blog.csdn.net/qq_33876194/article/details/98943383

2.XLNET不同于BERT中的self Attention而使用Two-stream Self Attention和Permutation Language Model

https://blog.csdn.net/triplemeng/article/details/94437324

1.ELMO的缺点不是一个真正的双向,不能同时考虑两边 优点是一个训练和测试都一致的模型

2.BERT的缺点是训练和测试不一致,并且不是一个完备的概率函数模型,两个mask是假设独立的  优点是真正的双向模型

3.因此我们要综合上面的优缺点设计一个满足两个模型的优点并且没有上述两个模型的缺点

1.为什么使用双流注意力机制?

    [3-2-1-4]  [3-2-4-1] 上面的两个我们都是用3-2来预测,一个是1,一个是4,那么我们可以使用1,4的位置信息来进行区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值