2022-02-09大数据学习日志——PySpark——Spark快速入门&Standalone集群

本文详细介绍了PySpark的快速入门,包括Anaconda的安装、Spark Python Shell的使用,以及通过Anaconda创建虚拟环境。此外,还阐述了Standalone集群的架构、安装部署过程,包括Master和Worker节点的配置,以及如何启动和测试服务。通过实例演示了词频统计和运行圆周率PI,深入理解Spark应用的运行架构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一部分 Spark快速入门

01_Spark 快速入门【Anaconda 软件安装】[掌握]

使用Python编写Spark代码,首先需要安装Python语言包,此时安装Anaconda科学数据分析包。
在这里插入图片描述
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。Anaconda 是跨平台的,有 Windows、MacOS、Linux 版本。

# 下载地址:
	https://repo.anaconda.com/archive/
	
# 清华大学开源软件镜像站:
	https://mirrors.tuna.tsinghua.edu.cn/anaconda/

使用Python编程Spark程序,无论是开发还是运行,需要安装如下基本组件:
在这里插入图片描述

# 可以直接安装Spark 软件包
	包含pyspark库
	
# 直接安装pyspark库
	pip install pyspark

在CentOS7系统上安装Anaconda3-2021-05版本,具体步骤如下,集群所有集群如下方式安装。

1、安装包上传并解压

[root@node1 ~]# cd /export/server/
[root@node1 server]# rz

[root@node1 server]# chmod u+x Anaconda3-2021.05-Linux-x86_64.sh 

[root@node1 server]# sh ./Anaconda3-2021.05-Linux-x86_64.sh 
第一次:【直接回车】
    Please, press ENTER to continue
    >>> 
第二次:【输入yes】
	Do you accept the license terms? [yes|no]
	[no] >>> yes
第三次:【输入解压路径:/export/server/anaconda3】
	[/root/anaconda3] >>> /export/server/anaconda3
第四次:【输入yes,是否在用户的.bashrc文件中初始化Anaconda3的相关内容】
	Do you wish the installer to initialize Anaconda3
    by running conda init? [yes|no]
    [no] >>> yes

2、进入 conda 虚拟环境

​ 第一次需要先激活,命令行键入以下命令: source /root/.bashrc,进入conda默认虚拟环境(base)

[root@node1 ~]# source /root/.bashrc

## 测试python3
(base) [root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26) 
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python

3、设置系统环境变量

[root@node1 ~]# vim /etc/profile
# Anaconda Home
export ANACONDA_HOME=/export/server/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
    
[root@node1 ~]# source /etc/profile

[root@node1 ~]# python3
Python 3.8.8 (default, Apr 13 2021, 19:58:26) 
[GCC 7.3.0] :: Anaconda, Inc. on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print("Hello Python")
Hello Python

4、创建软链接

[root@node1 ~]# ln -s /export/server/anaconda3/bin/python3 /usr/bin/python3

注意:集群中三台机器node1、node2和node3都需要按照上述步骤安装Anconada3,不要使用scp命令拷贝。

02_Spark 快速入门【Spark Python Shell】[了解]

​ 本地模式运行Spark框架提供:基于python交互式命令行:pyspark,其中本地模式LocalMode含义为:启动一个JVM Process进程,执行任务Task,使用方式如下:

在这里插入图片描述

本地模式启动JVM Process进程,示意图:

在这里插入图片描述

  • 1、框架安装包上传解压
# 第一、进入软件安装目录
(base) [root@node1 ~]# cd /export/server/
# 第二、上传框架软件包
(base) [root@node1 server]# rz
# 第三、赋予执行权限
(base) [root@node1 server]# chmod u+x spark-3.1.2-bin-hadoop3.2.tgz 

# 第四、解压软件包
(base) [root@node1 server]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz 
# 第五、赋予root用户和组
(base) [root@node1 server]# chown -R root:root spark-3.1.2-bin-hadoop3.2

# 第六、重命名为spark-local
(base) [root@node1 server]# mv spark-3.1.2-bin-hadoop3.2 spark-local
  • 2、启动pyspark shell命令行
# 第一、进入spark框架安装目录
(base) [root@node1 ~]# cd /export/server/spark-local
(base) [root@node1 spark-local]# ll

# 查看Spark软件安装包目录结构:

在这里插入图片描述

# 第二、启动pyspark shell命令行,设置本地模式运行
(base) [root@node1 ~]# /export/server/spark-local/bin/pyspark --master local[2]

Python 
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值