WordPiece与BPE的区别

本文澄清了BERT的WordPiece与GPT的BPE并非同一概念。WordPiece通过训练集上的语言模型选择最小化logloss的词汇单元,而BPE依据词对频数确定词汇单元。BERT采用WordPiece,GPT则使用BPE。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

博主在网上搜BERT的wordPiece时,发现很多文章都说BERT的wordPiece就是BPE(Byte-Pair Encoding), 这个说法其实是不对的,wordPiece和BPE有相似性,但是并不是一回事。

WordPiece是这个:
在这里插入图片描述
WordPiece需要在训练集上训练一个语言模型,每次挑选能最大化减少logloss的word unit。

BPE:
在这里插入图片描述

BPE是统计词对的频数,每次挑选频数最大的那个作为word unit。所以,wordPiece和BPE可不是一回事儿哦。

最后总结一下,BERT使用的是WordPiece,可以参考文章[1],[2]。GPT使用的是BPE,可以参考文章 [3]。

[1] Google’s neural machine translation system: Bridging the gap between human and machine translation.

[2]Japanese and Korean voice search.

[3]Neural Machine Translation of Rare Words with Subword Units.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值