1. 介绍
jieba是优秀的中文分词第三方库
-中文文本需要通过分词获得单个词语
-提供了三种分词模式,但最简单只需掌握一个函数
安装方式 (cmd命令行)pip install jieba
jieba库分词原理:利用中文词库,确认汉字之间的关联概率,例如中文两个字,就很有可能是关联的
用户可以添加自定义分词
2. 三种模式
-精确模式:把文本精确地分开,不存在冗余单词(最常用)
-全模式:将不同的组合全部挖掘,有冗余
-搜索引擎模式:在精确模式基础上,进一步切分长词为短词
3. 常用函数


出处:北理工Python慕课