Linux 下伪分布式安装spark

最新推荐文章于 2024-04-27 20:33:11 发布

原创最新推荐文章于 2024-04-27 20:33:11 发布 · 439 阅读

CC 4.0 BY-SA版权

本文档详细介绍了如何在Linux系统中进行伪分布式安装Spark的步骤。首先，需要安装Scala，由于Scala依赖Java虚拟环境，所以需要确保已安装JVM。接着，下载并解压Scala和Spark到指定目录，通过编辑.bashrc或/etc/profile文件添加环境变量，并使其生效。之后，配置Spark的spark-env.sh文件，启动所有服务。最后，通过浏览器验证Spark是否成功启动。

首先要安装Scala, 然后再装spark
链接：https://pan.baidu.com/s/1ztL8u7tjm7t6Gm2yg-gWig
提取码：km7m
这里面是scala2.11.8和spark2.2.3
然而Scala又是在java虚拟环境下运行的,没装jvm的得先装

1.下载解压然后放到指定位置,打开gedit ~/.bashrc文件, 加路径进去

	export SCALA_HOME=/home/hadoop/scala
	export PATH=$SCALA_HOME/bin:$PATH

这个是基于用户的, 如果你想所有用户都用到的话,就把它放进
gedit /etc/profile下
然后source /etc/profile一下
再然后输入scala -version有反应就说明成功了
在这里插入图片描述
然后开始装spark了, 也是先解压到指定的位置(你自己喜欢)
然后配置gedit ~/.bashrc

export SPARK_HOME=/home/hadoop/spark
export PATH=$SPARK_HOME/bin:$PATH

完了再scource ~/.bashrc

再进到cd spark/conf, 再 cp spark-env.sh.template spark-env.sh
然后加入到spark-env.sh文件下

export JAVA_HOME=/home/hadoop/java/jdk1.8.0_191
export SCALA_HOME=/home/hadoop/scala
export HADOOP_HOME=/home/hadoop/hadoop-2.7.6
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.7.6/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
# 还有一些其他配置项可以百度看看

现在就可以进入spark sbin/start-all.sh
在这里插入图片描述
然后再去浏览器看看

这样就成功了