第一部分 Spark快速入门
01_Spark 快速入门【Anaconda 软件安装】[掌握]
使用Python编写Spark代码,首先需要安装Python语言包,此时安装Anaconda科学数据分析包。
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。Anaconda 是跨平台的,有 Windows、MacOS、Linux 版本。
# 下载地址:
https://repo.anaconda.com/archive/
# 清华大学开源软件镜像站:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/
使用Python编程Spark程序,无论是开发还是运行,需要安装如下基本组件:
# 可以直接安装Spark 软件包
包含pyspark库
# 直接安装pyspark库
pip install pyspark
在CentOS7系统上安装Anaconda3-2021-05版本,具体步骤如下,集群所有集群如下方式安装。
1、安装包上传并解压
[root@node1 ~]# cd /export/server/
[root@node1 server]# rz
[root@node1 server]# chmod u+x Anaconda3-2021.05-Linux-x86_64.sh
[root@node1 server]# sh ./Anaconda3-2021.05-Linux-x86_64.sh
第一次:【直接回车】
Please, press ENTER to continue
>>>
第二次:【输入yes】
Do you accept the license terms? [yes|no]
[no] >>> yes
第三次:【输入解压路径:/export/server/anaconda3】
[/root/anaconda3] >>> /export/server/anaconda3
第四次:【输入yes,是否在用户的.bashrc文件中初始化Anaconda3的相关内容】
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
[no] >>> yes
2、进入 conda 虚拟环境
第一次需要先激活,命令行键入以下命令: source /root/.bashrc
,进入conda默认虚拟环境(base)
[root@node1 ~]# source /root/.bashrc
## 测试python3
(base) [root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26)
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python
3、设置系统环境变量
[root@node1 ~]# vim /etc/profile
# Anaconda Home
export ANACONDA_HOME=/export/server/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
[root@node1 ~]# source /etc/profile
[root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26)
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python
4、创建软链接
[root@node1 ~]# ln -s /export/server/anaconda3/bin/python3 /usr/bin/python3
注意:集群中三台机器node1、node2和node3都需要按照上述步骤安装Anconada3,不要使用
scp
命令拷贝。
02_Spark 快速入门【Spark Python Shell】[了解]
本地模式运行Spark框架提供:基于python交互式命令行:
pyspark
,其中本地模式LocalMode含义为:启动一个JVM Process进程,执行任务Task,
使用方式如下:
本地模式启动JVM Process进程,示意图:
- 1、框架安装包上传解压
# 第一、进入软件安装目录
(base) [root@node1 ~]# cd /export/server/
# 第二、上传框架软件包
(base) [root@node1 server]# rz
# 第三、赋予执行权限
(base) [root@node1 server]# chmod u+x spark-3.1.2-bin-hadoop3.2.tgz
# 第四、解压软件包
(base) [root@node1 server]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz
# 第五、赋予root用户和组
(base) [root@node1 server]# chown -R root:root spark-3.1.2-bin-hadoop3.2
# 第六、重命名为spark-local
(base) [root@node1 server]# mv spark-3.1.2-bin-hadoop3.2 spark-local
- 2、启动
pyspark shell
命令行
# 第一、进入spark框架安装目录
(base) [root@node1 ~]# cd /export/server/spark-local
(base) [root@node1 spark-local]# ll
# 查看Spark软件安装包目录结构:
# 第二、启动pyspark shell命令行,设置本地模式运行
(base) [root@node1 ~]# /export/server/spark-local/bin/pyspark --master local[2]
Python