关于关键词提取
关键词提取(Key Word Extraction)
主要有以下方法:
- 基于统计:tf-idf, TextRank
- 基于词分布:
- LDA:采用贝叶斯学派的方法对分布信息拟合
- LSA/LSI:采用SVD的方法暴力破解
- Rake、Topic-Model
TF-IDF
TF-IDF(注意:这里不是减号)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
。
思想由来
蜜蜂养殖
在文档A 中出现的频次高,一个
在所有文档中出现的频次都高;那么文档A 大概率重点为 蜜蜂养殖
而非 一个
。
字词的重要性随着它在文件中出现的次数
成正比 增加,但同时会随着它在 语料库
中出现的频率成反比 下降。
本质基于词袋模型(Bag-of-Words)。
用处
TF-IDF 加权的各种形式常被搜索引擎
应用,作为文件与用户查询之间 相关程度的度量或评级。
名词/概念解释
- TF(Term Frequency),词频,表示一个词在一个文档中出现的次数。
- DF(Document Frequency),表示整个语料库中 含有某个词的 文档个数。
- IDF(Inverse Document Frequency),逆文档频率,其计算公式为:
I D F = l o g ( 语 料 库 中 文 档 总 数 包 含 该 词 的 文 档 数 + 1 ) IDF = log(\frac{语料库中文档总数}{包含该词的文档数+1})