jieba.analyse+词性标注+统计出场次数+sklearn计算tfidf值

最新推荐文章于 2024-08-07 09:51:43 发布

原创

最新推荐文章于 2024-08-07 09:51:43 发布 · 2.3k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

本文介绍了如何使用jieba库进行中文分词，并结合词性标注，统计各词汇的出场次数。进一步，通过sklearn库计算TF-IDF值，以评估词汇在文本中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import jieba.analyse
sentence='故今日之责任，不在他人，全在我少年。少年智，则国智。少年富，则国富。少年强，则国强。少年独立，则国独立。少年自由，则国自由。少年进步，则国进步。少年胜于欧洲，则国胜于欧洲。少年雄于地球，则国雄于地球。红日初升，其道大光。河出汱流，一泻汪洋。潜龙腾潜龙腾渊，鳞爪飞扬。如虎啸谷，百兽震惶。鹰隼试翼，风尘吹张。奇花初胎，矞矞皇皇。干将发硎，有作其芒。天戴其苍，地履其黄。纵有千古，横有八荒。前途似海，来日方长。美在我少年中国，与天不老。壮哉我中国少年，与国无疆！日本人之称我中国也，一则曰老大帝国，再则曰老大帝国。是语也，盖袭译欧西人之言也。呜呼！我中国其果老大矣乎？梁启超曰：恶，是何言！是何言！吾心目中有一少年中国在'

#基于 TF-IDF提取关键字
keywords=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=('n','nr','ns'))
#print(type(keywords))
for item in keywords:
    print(item[0],item[1])

在这里插入图片描述

# 基于TextRank算法的关键词抽取
keywords1=jieba.analyse.textrank(sentence, topK=20, withWeight=True, allowPOS=('ns','n','vn','v'))
for item in keywords1:
    print(item[0],item[1])

在这里插入图片描述