jieba导入自定义词库,特殊字符不分割,识别词性

博客围绕Python展开,介绍了导入自定义词库的方法,将词典存入userdict.txt文件,词与词性用空格分割。还说明了让词库特殊字符不分割的操作,需修改jieba/init.py和jieba/posseg/init.py文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导入自定义词库,特殊字符不分割,识别词性。

导入词库

将词典存入userdict.txt文件中。词与词性用空格分割。

jieba.load_userdict("userdict.txt")

在这里插入图片描述

词库特殊字符不分割

修改jieba/init.py。因为要修改jieba原始文件,所以不使用全局安装jieba,从github上下载后,将jieba目录复制到项目根目录,

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)

修改为

re_han_default = re.compile("(.+)", re.U)

输出词性时,词库特殊字符不分割

修改jieba/posseg/init.py。

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")

修改为

re_han_internal = re.compile("(.+)")
import jieba
import jieba.posseg as pseg

jieba.load_userdict("userdict.txt")
prompt = (
        "β-阿朴-8’-胡萝卜素醛能否用于调制肉制品"
)
# seg_list = jieba.cut(prompt, cut_all=False, HMM=True)
# print(", ".join(seg_list))
seg_list = pseg.cut(prompt,use_paddle=True)
for word, flag in seg_list:
    print('%s %s' % (word, flag))
β-阿朴-8’-胡萝卜素醛 tjj
能否 v
用于 v
预制肉制品 food
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yuan86_12

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值