jieba.analyse+词性标注+统计出场次数+sklearn计算tfidf值

本文介绍了如何使用jieba库进行中文分词,并结合词性标注,统计各词汇的出场次数。进一步,通过sklearn库计算TF-IDF值,以评估词汇在文本中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import jieba.analyse
sentence='故今日之责任,不在他人,全在我少年。少年智,则国智。少年富,则国富。少年强,则国强。少年独立,则国独立。少年自由,则国自由。少年进步,则国进步。少年胜于欧洲,则国胜于欧洲。少年雄于地球,则国雄于地球。红日初升,其道大光。河出汱流,一泻汪洋。潜龙腾潜龙腾渊,鳞爪飞扬。如虎啸谷,百兽震惶。鹰隼试翼,风尘吹张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。美在我少年中国,与天不老。壮哉我中国少年,与国无疆!日本人之称我中国也,一则曰老大帝国,再则曰老大帝国。是语也,盖袭译欧西人之言也。呜呼!我中国其果老大矣乎?梁启超曰:恶,是何言!是何言!吾心目中有一少年中国在'

#基于 TF-IDF提取关键字
keywords=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=('n','nr','ns'))
#print(type(keywords))
for item in keywords:
    print(item[0],item[1])

在这里插入图片描述

# 基于TextRank算法的关键词抽取
keywords1=jieba.analyse.textrank(sentence, topK=20, withWeight=True, allowPOS=('ns','n','vn','v'))
for item in keywords1:
    print(item[0],item[1])

在这里插入图片描述

#词性标注
import jieba
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值