- BERT是论文 Pre-training of Deep Bidirectional Transformers for Language Understanding 所提出的模型,在11个NLP任务中取得好的结果。
- 现在研究,对于BERT的使用,一般是微调,微调时根据自己的数据,梯度下降loss(loss = 分类器的loss + Mask的loss),得到BERT模型当作词典使用或直接使用BERT的[CLS]进行预测。
- BERT的输入为 token embedding(包含词的信息) + position embedding(包含句子中词的位置信息)+segment embedding (是否为两句话) 。
- BERT最后4层拼接,可以实现较好的预测结果。