大数据学习Spark——local模式（实战）

最新推荐文章于 2024-07-16 20:23:05 发布

Caron_xcb

最新推荐文章于 2024-07-16 20:23:05 发布

阅读量243

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark

caron

5 篇文章

订阅专栏

本文详细介绍了如何在Linux环境下搭建Spark 2.4.5的本地运行环境，包括解压缩文件、配置环境变量、关联Hadoop3、启动Local模式及WebUI监控，还提供了命令行工具使用示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格，课件后续如果涉及到解压缩操作，不再强调。

 tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz
-C /opt/module

 cd /opt/module

 mv spark-2.4.5-bin-without-hadoop-scala-2.12 spark-local

spark2.4.5默认不支持Hadoop3，可以采用多种不同的方式关联Hadoop3

Ø 修改spark-local/conf/spark-env.sh文件，增加如下内容

 SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-3.1.3/bin/hadoop
classpath)

Ø 除了修改配置文件外，也可以直接引入对应的Jar包

1) 进入解压缩后的路径，执行如下指令

 bin/spark-shell --master local[*]

在这里插入图片描述
2) 启动成功后，可以输入网址进行Web UI监控页面访问

   http://虚拟机地址:4040

在解压缩文件夹下的data目录中，添加word.txt文件。在命令行工具中执行如下代码指令（和IDEA中代码简化版一致）

 sc.textFile("file:///opt/module/spark-local/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述

按键Ctrl+C或输入Scala指令

:quit