WordPiece与BPE的区别

最新推荐文章于 2025-07-10 11:49:53 发布

yftadyz

最新推荐文章于 2025-07-10 11:49:53 发布

阅读量3.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习 nlp

本文链接：https://blog.csdn.net/yftadyz/article/details/107436251

深度学习专栏收录该内容

12 篇文章

订阅专栏

本文澄清了BERT的WordPiece与GPT的BPE并非同一概念。WordPiece通过训练集上的语言模型选择最小化logloss的词汇单元，而BPE依据词对频数确定词汇单元。BERT采用WordPiece，GPT则使用BPE。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博主在网上搜BERT的wordPiece时，发现很多文章都说BERT的wordPiece就是BPE(Byte-Pair Encoding), 这个说法其实是不对的，wordPiece和BPE有相似性，但是并不是一回事。

WordPiece是这个：
在这里插入图片描述
WordPiece需要在训练集上训练一个语言模型，每次挑选能最大化减少logloss的word unit。

BPE：
在这里插入图片描述

BPE是统计词对的频数，每次挑选频数最大的那个作为word unit。所以，wordPiece和BPE可不是一回事儿哦。

最后总结一下，BERT使用的是WordPiece，可以参考文章[1],[2]。GPT使用的是BPE，可以参考文章 [3]。

[1] Google’s neural machine translation system: Bridging the gap between human and machine translation.

[2]Japanese and Korean voice search.

[3]Neural Machine Translation of Rare Words with Subword Units.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yftadyz

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【人工智能之大模型】阐述Wordpiece和BPE之间的区别是什么？

985小水博的摸鱼日常

04-04

1127

【人工智能之大模型】阐述Wordpiece和BPE之间的区别是什么？

tokenization中bpe和word peice的区别

强化学习曾小健

09-29

189

字节对编码（BPE）是一种高效的子词切分技术，通过频繁字符对的合并来构建动态词表，在自然语言处理中发挥了重要作用。尽管存在一些缺点，但其在处理复杂语言结构和未登录词方面的优势使其成为现代NLP模型的重要组成部分。

1 条评论您还未登录，请先登录后发表或查看评论

WordPiece 和 BPE 的区别

xiyou__的博客

06-21

4983

区分WordPiece和BPE

bpe字节对编码和wordpiece、sentencepiece、tiktoken的区别和优劣

最新发布

强化学习曾小健

07-10

460

特性BPEWordPieceTiktoken核心算法频率驱动的贪心合并语言模型似然驱动的合并可配置（BPE或Unigram）优化后的BPE预分词需要需要不需要需要空格处理预分词阶段处理预分词阶段处理视为普通字符（预分词阶段处理主要优势简单有效，应用广泛理论上更优的合并策略语言无关，端到端极高的执行速度主要劣势贪心策略，依赖预分词计算稍复杂，依赖预分词配置较复杂针对性强，灵活性低代表模型。

Subword、BPE、Wordpiece是什么，有什么联系与区别

v-space的博客

12-10

2473

在看语音识别或语言模型中有关英文建模单元时。经常遇到Subword、BPE、Wordpiece这几个词，那么这几个词之间有什么联系与区别呢？在进行了解后，有了一些自己的理解：（1）**Subword：**是将词变为更小单位的算法的总称，其中就包括BPE和Wordpiece。（2）BPE与Wordpiece都是首先初始化一个小词表，再根据一定准则将不同的词合并，词表由小变大。（3）BPE与Wordpiece的最大区别在于，如何选择两个子词进行合并：BPE选择频数最高的相邻子词合并，而WordPiec

自然语言基础1: 文本标记算法 (Tokenization Algorithm) : Byte-Pair Encoding (BPE) 和 WordPiece

disanda的专栏

07-05

1254

BPE最初是用于文本压缩的算法，当前是最常见tokenizer的编码方法，用于 GPT (OpenAI) 和 Bert (Google) 的 Pre-training Model。

WordPiece、BPE详解及代码

you_jinpeng的博客

08-13

9352

1.BPE是干什么用的？ WordPiece字面理解是把word拆成piece一片一片，其实就是这个意思。 WordPiece的一种主要的实现方式叫做BPE（Byte-Pair Encoding）双字节编码。 “loved”,“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思，但是如果我们以单词为单位，那它们就算不一样的词，在英语中不同后缀的词非常的多，就会使得词表变的很大，训练速度变慢，训练的效果也不是太好。 BPE算法通过训练，能够把上面的3个单词拆分成"lov”,“ed”,“i

大模型算法工程师经典面试题————LLM大语言模型之Tokenization分词方法（WordPiece，BPE，BBPE)原理

2401_86435672的博客

10-07

1379

本文主要内容为目前大模型时代分词是怎么做的☺️，WordPiece，Byte-Pair Encoding (BPE)，Byte-level BPE(BBPE)分词方法的原理以及其代码实现，全文阅读和实现可能需要45分钟，建议收藏~如果觉得对你有帮助，那就点个赞吧。 Tokenization（分词）在自然语言处理(NLP)的任务中是最基本的一步，把文本内容处理为最小基本单元即token(标记，令牌，词元，没有准确的翻译)用于后续的处理，如何把文本处理成token呢？有一系列的方法，基本思想是构建一个词表

BPE、Wordpiece、Unigram、SpanBERT等Tokenizer细节总结

taoqick的专栏

04-27

2090

这部分部分摘录自https://martinlwx.github.io/zh-cn/the-bpe-tokenizer/max01len。

NLP中常见的分词算法（BPE、WordPiece、Unigram、SentencePiece）

酒酿小圆子呀～

01-09

4760

从上面的公式，很容易发现，似然值的变化就是两个子词之间的互信息。简而言之，WordPiece每次选择合并的两个子词，他们具有最大的互信息值，也就是两子词在语言模型上具有较强的关联性，它们经常在语料中以相邻方式同时出现。在训练任务中，如果能对不同的 Subword 进行训练的话，将增加模型的健壮性，能够容忍更多的噪声，而 BPE 的贪心算法无法对随机分布进行学习。我们将一个个的 token（可以理解为小片段）表示向量，我们分词的目的就是尽可能的让这些向量蕴含更多有用的信息，然后把这些向量输入到算法模型中。

子词分词器BPE和WordPiece理解

beingstrong的博客

04-15

2575

在学习不同的模型如GPT-1、Bert时可以发现它们使用了不同的子词分词器(subword tokenizer) ：BPE（Bype Pair Encoding)和WordPiece。那这两个子词分词器有什么异同呢？

Byte Pair Encoding（BPE）/WordPiece算法介绍

J~的博客

02-05

5934

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后，各路预训练语言模型如同雨后春笋般涌现，其中Subword算法在其中已经成为标配。所以作为NLP界的小菜鸟，有必要了解下Subword算法的原理。 1BPE BPE，（byte pair encoder）字节对编码，也可以叫做digram coding双字母组合编码，主要...

Subword算法:BPE,WordPiece,ULM

qq_38317254的博客

06-10

920

本文基本转载于深入理解NLP Subword算法：BPE、WordPiece、ULM bpe分词子词技巧：The Tricks of Subword 1. 传统的空格分隔的tokenization技术对比传统词表示方法无法很好的处理未知或罕见的词汇（OOV, out-of-vocabulary：不在词库）传统的tokenization方法不利于模型学习词缀之间的关系：E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “sma

[NLP]——BPE、WordPiece、Unigram and SentencePiece

jokerxsy的博客

05-18

1330

目录前言Byte Pair Encoding(BPE)WordPieceUnigram 前言单词级别的tokenizer有以下缺点: 单词变体算做不同单词，无法体现它们的关联本文从代码层次解析四种常用的tokenizer Byte Pair Encoding(BPE) 提出论文:Neural machine translation of rare words with subword units 以下讲解基本参考:Byte Pair Encoding 假设拥有一个含有很多单词的语料，首先统计各个单词

wordpiece

yanglee0

06-28

960

一、

BPE vs WordPiece：理解 Tokenizer 的工作原理与子词分割方法

Hoper-J的博客

10-22

1781

了解 Tokenizer 的基本操作。了解常见的子词分割方法：BPE 和 WordPiece。了解注意力掩码（Attention Mask）和词元类型 ID （Token Type IDs）。

WordPiece 详解与示例

kcarly的专栏

04-16

1276

WordPiece 是一种子词分词算法，由谷歌于2012年提出，最初用于语音搜索系统，后广泛应用于机器翻译和BERT等预训练模型。其核心思想是将单词拆分为更小的子词单元（如词根、前缀/后缀），从而解决传统分词方法面临的词表过大和OOV问题。

WordPiece词表的创建

bigcrab的博客

12-06

2000

wordpiece的目的是：通过考虑单词内部构造，充分利用subwords的优势，在把长word转化为短word提高文字的灵活性以及提高word转化的效率这两处之间取得一个良好的平衡；前者会增加词表大小，后者会减少词表大小。

NLP Subword算法详解：BPE、WordPiece与ULM比较

Subword算法，如BytePair Encoding (BPE)、WordPiece和ULM，通过更精细的粒度，如字节对或词内切分，解决了这些问题。 BPE是一种数据压缩技术，通过频繁的字节对替换为新字节来减少词汇表大小，如OpenAI GPT-2和...