1、文本特征向量提取方式
- TF - IDF:单词在当前文档出现的频率 * log(总文档/单词在总文档中出现的文档数 ) 统计单词的TF-IDF,作为文本特征向量
- CountVectorizer:只统计单词的词频,作为文本特征向量
上面两种方式参考这篇 https://blog.csdn.net/The_lastest/article/details/79093407
- Word2Vec
隐藏层求得onehot维度 * 隐藏层神经节点的个数,就是我们需要的wordvec,每一行就是对应单词的编码后的向量- CBOW:输入是上下文,输出是种子单词
- Skip-Gram: 输入是种子单词,输出是上下文
word2vec 参考
- https://www.jianshu.com/p/471d9bfbd72f
- https://blog.csdn.net/rlnlo2pnefx9c/article/details/78747970
2、LTR算法
(TODO 每个方式找个具体的算法看下怎么做的)
https://blog.csdn.net/manduner/article/details/80702762