前言
上篇文章主要介绍了PySpark开发环境的搭建,接下来就是Spark的入门案例,通过入门案例进一步了解Spark的运行逻辑,开发环境的搭建可以参考文章:Spark开发环境准备、Spark环境搭建
一、案例简介
PySpark入门案例读取HDFS上的csv文件,csv文件中有很多单词,每个单词以空格隔开,运行PySpark程序,计算出csv文件中每个单词的数量。
二、前期准备
本次演示的代码计算部分由Spark负责,资源调度由Hadoop的Yarn负责,代码开发之前需要保证:
-
Hadoop集群的正常运行
-
将需要读取的txt文件上传到HDFS上,
(1)WordCount文件内容