目录
理论知识准备
前期我们对分词进行了详细的讲解,那么分词之后,哪些关键词对一个文档才是重要的?比如可以通过单词出现的次数,次数越多就表示越重要。
构造文本特征向量
-
Count (文档:空格连接的字符串)
-
TFIDF (文档:空格连接的字符串)
-
Word2Vec (文档:分词列表)
TF-IDF 值
单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大,则越重要。
TF:全称是Term Frequency,即词频(单词出现的频率),也就是一个单词在文档中出现的次数,次数越多越重要。
计算公式:一个单词的词频TF = 单词出现的次数 / 文档中的总单词数
IDF:全称是Inverse Document Frequency,即逆向文档词频,是指一个单词在文档中的区分度。
它认为一个单词出现在的文档数越少,这个单词对该文档就越重要,就越能通过这个单词把该文档和其他文档区分开。
计算公式:一个单词的逆向文档频率 IDF = log(文档总数 / 该单词出现的文档数 + 1)
为了避免分母为0(有些单词可能不在文档中出现),所以在分母上加1