BERT简单理解

博客介绍了BERT模型,它由论文提出并在11个NLP任务中表现出色。当前对BERT的使用多为微调,微调时依据特定梯度下降loss。其输入包含token、position和segment embedding,最后4层拼接可实现较好预测结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. BERT是论文 Pre-training of Deep Bidirectional Transformers for Language Understanding 所提出的模型,在11个NLP任务中取得好的结果。
  2. 现在研究,对于BERT的使用,一般是微调,微调时根据自己的数据,梯度下降loss(loss = 分类器的loss + Mask的loss),得到BERT模型当作词典使用直接使用BERT的[CLS]进行预测。
  3. BERT的输入为 token embedding(包含词的信息) + position embedding(包含句子中词的位置信息)+segment embedding (是否为两句话) 。
  4. BERT最后4层拼接,可以实现较好的预测结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值