spark scala 统计单词的个数
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object Hello {
def main(args: Array[String]): Unit = {
System.setProperty("hadoop.home.dir", "E:\\bigdata\\hadoop-2.7.2\\hadoop-2.7.2")
//创建SparkConf()并设置App名称
val conf = new SparkConf().setAppName("WC").setMaster("local")
//创建SparkContext,该对象是提交spark App的入口
val sc = new SparkContext(conf)
//使用sc创建RDD并执行相应的transformation和action
val rdd: RDD[(String, Int)] = sc.textFile("E:\\bigdata\\scala\\project\\Hello\\src\\main\\scala\\com\\atguigu\\input.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_, 1).sortBy(_._2, false)
rdd.collect().foreach(println)
//停止sc,结束该任务
sc.stop()
}
}