从零开始配置spark—local_java spark-CSDN博客

Spark 依赖 Java 运行环境，你需要安装 Java 8 或更高版本。

使用以下命令安装 OpenJDK 11：

bash

sudo apt update
sudo apt install openjdk-11-jdk

安装完成后，通过以下命令验证 Java 是否安装成功：

bash

java -version

访问 Spark 官方下载页面，选择合适的版本进行下载。以 Spark 3.4.1 为例，你可以使用以下命令下载：

bash

wget https://dlcdn.apache.org/spark/spark-3.4.1/spark-3.4.1-bin-hadoop3.tgz

使用以下命令解压下载的压缩包：

bash

tar -xvf spark-3.4.1-bin-hadoop3.tgz

编辑 ~/.bashrc 或 ~/.zshrc 文件，添加以下内容：

bash

export SPARK_HOME=/path/to/spark-3.4.1-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

请将 /path/to/ 替换为你实际解压 Spark 的路径。

使环境变量生效：

bash

source ~/.bashrc

启动 Spark 自带的 Shell 进行验证。

bash

pyspark

如果一切配置正确，你将看到 PySpark 的启动界面，并且可以在其中执行 Spark 相关的操作。

bash

spark-shell

同样，如果配置无误，会进入 Spark Shell 的交互界面。

Spark 自带了一些示例程序，你可以通过以下命令运行一个简单的示例：

bash

spark-submit $SPARK_HOME/examples/src/main/python/pi.py 10