1. 安装 Java
Spark 依赖 Java 运行环境,你需要安装 Java 8 或更高版本。
以 Ubuntu 系统为例
使用以下命令安装 OpenJDK 11:
bash
sudo apt update
sudo apt install openjdk-11-jdk
验证 Java 安装
安装完成后,通过以下命令验证 Java 是否安装成功:
bash
java -version
2. 下载 Spark
访问 Spark 官方下载页面,选择合适的版本进行下载。以 Spark 3.4.1 为例,你可以使用以下命令下载:
bash
wget https://dlcdn.apache.org/spark/spark-3.4.1/spark-3.4.1-bin-hadoop3.tgz
3. 解压 Spark
使用以下命令解压下载的压缩包:
bash
tar -xvf spark-3.4.1-bin-hadoop3.tgz
4. 配置环境变量
编辑 ~/.bashrc
或 ~/.zshrc
文件,添加以下内容:
bash
export SPARK_HOME=/path/to/spark-3.4.1-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
请将 /path/to/
替换为你实际解压 Spark 的路径。
使环境变量生效:
bash
source ~/.bashrc
5. 验证 Spark 配置
启动 Spark 自带的 Shell 进行验证。
启动 PySpark(Python 版 Spark)
bash
pyspark
如果一切配置正确,你将看到 PySpark 的启动界面,并且可以在其中执行 Spark 相关的操作。
启动 Spark Shell(Scala 版 Spark)
bash
spark-shell
同样,如果配置无误,会进入 Spark Shell 的交互界面。
6. 运行示例程序
Spark 自带了一些示例程序,你可以通过以下命令运行一个简单的示例:
bash
spark-submit $SPARK_HOME/examples/src/main/python/pi.py 10