Spark大数据开发与应用案例(视频教学版)（四）--第二章上

本文链接：https://blog.csdn.net/silentwolfyh/article/details/144926195

作者：余辉

简介：余辉，硕士毕业于中科院，从事IT行业12年。专注于大数据和机器学习。在数据团队担任过的角色：研发、架构师、负责人、讲师。数据知识产权：出版大数据书籍【3】本，发表论文【2】篇，授权软著【10】余篇，发表专利【100】余篇，授权专利【30】余篇.

第2章 Spark集群环境部署

本章主要讲述在VMware® Workstation 17 Pro虚拟机中部署Ubantu22.04版本系统，以及apache-zookeeper-3.8.1，apache-hadoop-3.4.0， apache-spark-3.5.3集群的部署，同时配备集群一键启动脚本，通过图文并茂的形式带领读者一步一步进行部署。免去读者配置集群环境的烦恼，同时将配置好的集群存储在百度云（参见1.8 集群下载），读者可以下载解压直接使用。
在大数据处理领域，Hadoop和Spark经常是结合使用的。Hadoop主要作为存储和资源调度平台，提供HDFS分布式存储和YARN资源调度服务；而Spark则作为计算引擎，提供快速、高效的分布式计算能力。这样的组合可以充分发挥两者的优势，构建出强大、灵活的大数据处理系统，因此本书部署了Hadoop和Spark环境。
本章主要知识点：

VM虚拟机安装
Ubuntu 22.04系统安装
Ubuntu 22.04网络配置
Ubuntu 22.04环境配置
zookeeper 安装
Hadoop 安装
Spark安装
集群和代码下载

1.1.VM虚拟机安装

（1）首先下载安装VMware Workstation 17 Pro，安装过程比较简单，读者可以按照安装向导的提示进行安装即可，这里不展开说明。图 2-1是VMware Workstation 17 Pro版本基本信息。
在这里插入图片描述

图 2-1 VMware Workstation 17 Pro版本基本信息

（2）安装VMware Workstation 17 Pro成功后，运行此程序，在主界面上点击“创建新的虚拟机”，如图2-1所示。
在这里插入图片描述

图2-2 创建新的虚拟机

（3）“新建虚拟机向导”窗口，如图2-3所示，在界面上选择“典型(推荐)(T)”，再点击“下一步”按钮。
在这里插入图片描述

图2-3 选择“典型(推荐)(T)”

（4）“新建虚拟机向导”窗口，如图2-4所示。选择“稍后安装操作系统”，再点击“下一步”按钮。
在这里插入图片描述

图2-4 选择“稍后安装操作系统”

（5）“新建虚拟机向导”窗口，如图2-5所示。在“客户机操作系统”选择“Linux”，接着在“版本”中选择“Ubantu64位”，之后点击“下一步”按钮。
在这里插入图片描述

图2-5 选择“Linux和版本”

（6）“新建虚拟机向导”窗口，如图2-6所示。在“虚拟机名称”编辑“yuhui01”，“位置”为“默认地址”，之后点击“下一步”按钮。
在这里插入图片描述

图2-6 填写虚拟机名称

（7）“新建虚拟机向导”窗口，如图2-7所示。在“最大磁盘大小（GB）”框中填写“40G”，同时选择“将虚拟机磁盘存储为单个文件”，之后点击“下一步”按钮。在这里插入图片描述

图2-7 填写最大磁盘大小

（8）“新建虚拟机向导”窗口，如图2-8所示。点击“完成”按钮。之后开始设置虚拟机参数。
在这里插入图片描述

图2-8 点击完成

（9）虚拟机参数设置，如图2-9所示。点击“内存”，跳转到虚拟机设置窗口。
虚拟机设置窗口，将“内存”调整为8G，如图2-10；
虚拟机设置窗口，点击“CD/DVD（SATA）”，再点击“使用ISO映像文件”，选择本地的“Ubantu22.04系统的IOS文件”。如图2-11；
虚拟机设置窗口，点击“ 网络适配器”，选择“NAT（N）模式”，最后点击确定，如图2-12所示，

温馨提示： 如果物理内存有16G，建议设置为4G。如果物理内存有32G，建议设置为8G。内存大小必须是4MB的倍数。
在这里插入图片描述

1.2.Ubuntu 22.04系统安装

（1）点击“开启此虚拟机”，如图2-13。
在这里插入图片描述

图2-13 开启此虚拟机

（2）选择第一项，“Try or Install Ubantu”，直接回车，如图2-14。

在这里插入图片描述

图2-14 选择“Install Ubantu”

（3）在安装窗口，选择“中文简体”，然后点击“安装Ubuntu”按钮，如图2-15
在这里插入图片描述

图2-15 点击“安装Ubuntu”

（4）在安装窗口，键盘布局选择“Chinese”，然后点击“继续”按钮，如图2-16

在这里插入图片描述

图2-16 键盘布局

（5）在安装窗口，选择“最小安装”，在“其他选项”中“取消，安装Ubantu时下载更新”，然后点击“继续”按钮，如图2-17。
在这里插入图片描述

图2-17 更新和其他软件

（6）在安装窗口，选择“清除整个磁盘并安装Ubuntu”，然后点击“现在安装”按钮，如图2-18。
在这里插入图片描述

图2-18 安装类型

（7）在安装窗口，点击“继续”按钮，如图2-19。
在这里插入图片描述

图2-19 将改动写入磁盘

（8）在安装窗口，选择上海，点击“继续”按钮，如图2-20。在这里插入图片描述

图2-20 系统时间矫正

（9）在安装窗口，“您的姓名”和“您的计算机名称”填写“yuhui01”，“选择一个用户名”填写“hadoop”，“选择一个密码”和“确认您的密码”填写“yuhui888”，之后点击“登录时需要密码”，再点击“继续”，如图2-21。在这里插入图片描述

图2-21 用户账号和密码

（10）在安装窗口，等待十分钟左右即可，如图2-22。在这里插入图片描述

图2-22 等待安装

（11）在安装窗口，安装完成，点击“现在重启”按钮，如图2-23。在这里插入图片描述

图2-23 点击“现在重启”按钮

（12）显示Ubuntu登录界面，点击“yuhui01”输入密码“yuhui888”，进入桌面，如图2-24。
在这里插入图片描述

图2-24

（13）显示Ubuntu桌面界面，窗口“Ubantu24.04 LTS 升级可用”，点击“不升级”，如图2-25。
温馨提示1： 系统千万 不要升级、不要升级、不要升级。

温馨提示2： 重复“VM虚拟机安装”和“Ubuntu 22.04系统安装”两个步骤，配置出三台虚拟机。主机名称分别为：yuhui01，yuhui02，yuhui03。每一台的主机只有一个hadoop用户。在这里插入图片描述

图2-25 Ubuntu桌面界面

1.3.Ubuntu 22.04网络配置

1.物理机网络配置图解

本虚拟机是在Window10系统中安装成功的。在“控制面板”中找到“网络连接”，点击“VMware Network Adapter Vmnet8”右键“属性”弹出窗口“VMware Network Adapter Vmnet8状态”，点击“属性”，点击“Internet协议版本（TCP/IPV4）”，配置IP为“192.168.200.1”和子网掩码为“255.255.255.0”，最后点击“确定”按钮，进行配置保存。如图2-26。在这里插入图片描述

图2-26 物理机网络配置

2.VM软件网络配置图解

在“VMware Workstation 17 Pro”首页，第一步：点击“编辑”弹出“虚拟网络编辑器”。第二步：点击“WMnet8”。第三步：配置子网IP为“192.168.200.0”，配置子网掩码为“255.255.255.0”，第四步：再点击“NAT设置”，弹出“NAT设置”窗口。第五步：配置“网关IP”为“192.168.200.2”，最后点击“确定”，保存所有配置。如图2-27 和2-28 。在这里插入图片描述