2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群

最新推荐文章于 2025-06-16 13:26:57 发布

王络不稳定

最新推荐文章于 2025-06-16 13:26:57 发布

阅读量2.7k

点赞数 4

CC 4.0 BY-SA版权

文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/tingbaobaoo/article/details/122841307

本文详细介绍了PySpark的快速入门，包括Anaconda的安装、Spark Python Shell的使用，以及通过Anaconda创建虚拟环境。此外，还阐述了Standalone集群的架构、安装部署过程，包括Master和Worker节点的配置，以及如何启动和测试服务。通过实例演示了词频统计和运行圆周率PI，深入理解Spark应用的运行架构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分 Spark快速入门

01_Spark 快速入门【Anaconda 软件安装】[掌握]

使用Python编写Spark代码，首先需要安装Python语言包，此时安装Anaconda科学数据分析包。
在这里插入图片描述
Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。Anaconda 是跨平台的，有 Windows、MacOS、Linux 版本。

# 下载地址：
	https://repo.anaconda.com/archive/
	
# 清华大学开源软件镜像站：
	https://mirrors.tuna.tsinghua.edu.cn/anaconda/

使用Python编程Spark程序，无论是开发还是运行，需要安装如下基本组件：
在这里插入图片描述

# 可以直接安装Spark 软件包
	包含pyspark库
	
# 直接安装pyspark库
	pip install pyspark

在CentOS7系统上安装Anaconda3-2021-05版本，具体步骤如下，集群所有集群如下方式安装。

1、安装包上传并解压

[root@node1 ~]# cd /export/server/
[root@node1 server]# rz

[root@node1 server]# chmod u+x Anaconda3-2021.05-Linux-x86_64.sh 

[root@node1 server]# sh ./Anaconda3-2021.05-Linux-x86_64.sh 
第一次：【直接回车】
    Please, press ENTER to continue
    >>> 
第二次：【输入yes】
	Do you accept the license terms? [yes|no]
	[no] >>> yes
第三次：【输入解压路径：/export/server/anaconda3】
	[/root/anaconda3] >>> /export/server/anaconda3
第四次：【输入yes，是否在用户的.bashrc文件中初始化Anaconda3的相关内容】
	Do you wish the installer to initialize Anaconda3
    by running conda init? [yes|no]
    [no] >>> yes

2、进入 conda 虚拟环境

第一次需要先激活，命令行键入以下命令： source /root/.bashrc，进入conda默认虚拟环境（base）

[root@node1 ~]# source /root/.bashrc

## 测试python3
(base) [root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26) 
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python

3、设置系统环境变量

[root@node1 ~]# vim /etc/profile
# Anaconda Home
export ANACONDA_HOME=/export/server/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
    
[root@node1 ~]# source /etc/profile

[root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26) 
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python

4、创建软链接

[root@node1 ~]# ln -s /export/server/anaconda3/bin/python3 /usr/bin/python3

注意：集群中三台机器node1、node2和node3都需要按照上述步骤安装Anconada3，不要使用scp命令拷贝。

02_Spark 快速入门【Spark Python Shell】[了解]

本地模式运行Spark框架提供：基于python交互式命令行：pyspark，其中本地模式LocalMode含义为：启动一个JVM Process进程，执行任务Task，使用方式如下：

在这里插入图片描述

本地模式启动JVM Process进程，示意图：

在这里插入图片描述

1、框架安装包上传解压

# 第一、进入软件安装目录
(base) [root@node1 ~]# cd /export/server/
# 第二、上传框架软件包
(base) [root@node1 server]# rz
# 第三、赋予执行权限
(base) [root@node1 server]# chmod u+x spark-3.1.2-bin-hadoop3.2.tgz 

# 第四、解压软件包
(base) [root@node1 server]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz 
# 第五、赋予root用户和组
(base) [root@node1 server]# chown -R root:root spark-3.1.2-bin-hadoop3.2

# 第六、重命名为spark-local
(base) [root@node1 server]# mv spark-3.1.2-bin-hadoop3.2 spark-local

2、启动pyspark shell命令行

# 第一、进入spark框架安装目录
(base) [root@node1 ~]# cd /export/server/spark-local
(base) [root@node1 spark-local]# ll

# 查看Spark软件安装包目录结构：

在这里插入图片描述

# 第二、启动pyspark shell命令行，设置本地模式运行
(base) [root@node1 ~]# /export/server/spark-local/bin/pyspark --master local[2]

Python

最低0.47元/天解锁文章

200万优质内容无限畅学