测试数据源:20 Newsgroups (http://qwone.com/~jason/20Newsgroups/),其中包含20个领域的新闻,此次我们使用20news-bydate-train作为测试数据,其结构如下
Spark Task:
对多篇文章提取其特征关键字以备检索、分类使用(关键字视为一个单词)
输入内容文件格式
(article_id,content...)
(article_id,content...)
(article_id,content...)