文章目录 一、准备工作 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 2、将spark压缩包上传到虚拟机 3、将spark压缩包解压到指定位置 4、修改spark配置文件spark-env.sh 5、配置spark环境变量 三、启动并使用spark 1、启动hadoop服务 2、启动spark服务 3、进入spark shell (1)scala版spark shell (2)python版spark shell 4、Web界面访问spark 四、利用spark清洗数据 1、待清洗数据文件job_list.json 2、创建Maven项目SparkCleanData 3、编辑pom.xml文件,添加依赖 一、准备工作 大数据学习笔记06:伪分布式Hadoop 在虚拟机tiger上已经安装好了伪分布式hadoop 二、搭建伪分布式spark 1、下载spark-2.4.4-bin-hadoop2.7压缩包 https://www.apache.org/dyn/closer.lua/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz 2、将spark压缩包上传到虚拟机