文章介绍
jieba是一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。
本文讲述 jieba 的一些用法 包括:分词、关键词抽取(TF-IDF 算法)(TextRank 算法)等
知识扩充
jieba支持繁体字
比jieba更准确更高端的库 :NLPIR
工业界自然语言处理库 :spaCy
知识讲解
import jieba
'''
<h1> 分词 </h1>
'''
'''
📒
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)
jieba.cut 方法接受三个输入参数:
需要分词的字符串
cut_all 参数用来控制是否采用全模式
HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数
需