1、解压缩文件
将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格,课件后续如果涉及到解压缩操作,不再强调。
tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz
-C /opt/module
cd /opt/module
mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-local
spark2.4.5默认不支持Hadoop3,可以采用多种不同的方式关联Hadoop3
Ø 修改spark-local/conf/spark-env.sh文件,增加如下内容
SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-3.1.3/bin/hadoop
classpath)
Ø 除了修改配置文件外,也可以直接引入对应的Jar包
2、 启动Local环境
1) 进入解压缩后的路径,执行如下指令
bin/spark-shell --master local[*]
2) 启动成功后,可以输入网址进行Web UI监控页面访问
http://虚拟机地址:4040
3、命令行工具
在解压缩文件夹下的data目录中,添加word.txt文件。在命令行工具中执行如下代码指令(和IDEA中代码简化版一致)
sc.textFile("file:///opt/module/spark-local/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
4、退出本地模式
按键Ctrl+C或输入Scala指令
:quit