中文分词库jieba介绍

最新推荐文章于 2025-06-17 00:22:15 发布

原创

最新推荐文章于 2025-06-17 00:22:15 发布 · 7.1k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#隐马尔可夫模型 #自然语言处理 #nlp #nokia #cygwin

jieba是Python中优秀的中文分词库，采用前缀词典、动态规划及HMM模型进行分词。通过构建字典树和有向无环图（DAG）实现高效分词，对于未登录词，利用HMM进行解码处理。分词方法包括`cut`和`cut_for_search`，支持自定义词典和关键词提取功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.jieba库是较好的中文分词词库

2.jieba库分词思想有三步：定义前缀词典，构建字典树；生成句子有向图，路径规划输出最优路径；基于HMM模型求解decoding问题

3.生成句子有向图本质是贝叶斯网络，路径规划实质是求解联合概率分布

4.jieba的HMM模型的隐状态有四种：BMES，基于大量语料库初始化参数（初始概率分布，转移矩阵和发射矩阵）

分词是对文本预处理重要环节，英文分词可以针对空格切分达到很好的效果。而中国文字博大精深，需要用一定的方法处理。本文就介绍基于python第三方库jieba分词库，它是比较好的中文分词词库。jieba库的分词原理主要有三项：

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用Viterbi算法求解

前缀词典与DAG

首先是前缀词典的扫描。jieba库是利用了Tier树进行高效扫描，Tier树中文名叫字典树、前缀树。它的用途主要是将字符串整合成树形。

比如由“清华”、“清华大学”、“清白”、“中华”、“华夏”五个中文词构成的Tier树：

这个树里面每一个方块代表一个节点，其中根节点Root不代表任何字符；紫色代表分支节点；绿色代表叶子节点。除根节点外每一个节点都只包含一个字符。从根节点到叶子节点，路径上经过的字符连接起来，构成一个词。而叶子节点内的数字代表该词在字典树中所处的链路（字典中有多少个词就有多少条链路），具有共同前缀的链路称为串。

字典树有以下三个特点：

具有相同前缀的词必须位于同一个串内

比如“清华”和“清白”两个词语，都有“清”这个前缀，那么在字典树上只需要构建一个“清”节点即可，这在一定程度减少存储空间。

字典树中的词只可共用前缀，不可共用词的其他部分

比如“华夏”和“中华”，这两个词都有共同的后缀“华”，但在字典树上必须是两条独立的链路，即字典树仅依靠公共前缀压缩字典存储空间。再看“清华大学”这个词语，“大学”也是一个词语，但是“清华大学”的后缀，所以“大学”必须从根节点开始重新构建。

一个完整的词必须从根节点开始，至叶子节点结束

字典树实质是一个有限

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

整得咔咔响 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。