NLP -关键词提取


关于关键词提取

关键词提取(Key Word Extraction)


主要有以下方法:

  • 基于统计:tf-idf, TextRank
  • 基于词分布:
    • LDA:采用贝叶斯学派的方法对分布信息拟合
    • LSA/LSI:采用SVD的方法暴力破解
  • Rake、Topic-Model

TF-IDF

TF-IDF(注意:这里不是减号)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度


思想由来

蜜蜂养殖 在文档A 中出现的频次高,一个 在所有文档中出现的频次都高;那么文档A 大概率重点为 蜜蜂养殖 而非 一个

字词的重要性随着它在文件中出现的次数成正比 增加,但同时会随着它在 语料库中出现的频率成反比 下降。

本质基于词袋模型(Bag-of-Words)。


用处

TF-IDF 加权的各种形式常被搜索引擎应用,作为文件与用户查询之间 相关程度的度量或评级。


名词/概念解释

  • TF(Term Frequency),词频,表示一个词在一个文档中出现的次数。
  • DF(Document Frequency),表示整个语料库中 含有某个词的 文档个数。
  • IDF(Inverse Document Frequency),逆文档频率,其计算公式为:
    I D F = l o g ( 语 料 库 中 文 档 总 数 包 含 该 词 的 文 档 数 + 1 ) IDF = log(\frac{语料库中文档总数}{包含该词的文档数+1})
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值