作者:余辉
简介:余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据和机器学习。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【3】本,发表论文【2】篇,授权软著【10】余篇,发表专利【100】余篇,授权专利【30】余篇.
第2章 Spark集群环境部署
本章主要讲述在VMware® Workstation 17 Pro虚拟机中部署Ubantu22.04版本系统,以及apache-zookeeper-3.8.1,apache-hadoop-3.4.0, apache-spark-3.5.3集群的部署,同时配备集群一键启动脚本,通过图文并茂的形式带领读者一步一步进行部署。免去读者配置集群环境的烦恼,同时将配置好的集群存储在百度云(参见1.8 集群下载),读者可以下载解压直接使用。
在大数据处理领域,Hadoop和Spark经常是结合使用的。Hadoop主要作为存储和资源调度平台,提供HDFS分布式存储和YARN资源调度服务;而Spark则作为计算引擎,提供快速、高效的分布式计算能力。这样的组合可以充分发挥两者的优势,构建出强大、灵活的大数据处理系统,因此本书部署了Hadoop和Spark环境。
本章主要知识点:
- VM虚拟机安装
- Ubuntu 22.04系统安装
- Ubuntu 22.04网络配置
- Ubuntu 22.04环境配置
- zookeeper 安装
- Hadoop 安装
- Spark安装
- 集群和代码下载
1.1.VM虚拟机安装
(1)首先下载安装VMware Workstation 17 Pro,安装过程比较简单,读者可以按照安装向导的提示进行安装即可,这里不展开说明。图 2-1是VMware Workstation 17 Pro版本基本信息。
(2)安装VMware Workstation 17 Pro成功后,运行此程序,在主界面上点击“创建新的虚拟机”,如图2-1所示。
(3)“新建虚拟机向导”窗口,如图2-3所示,在界面上选择“典型(推荐)(T)”,再点击“下一步”按钮。
(4)“新建虚拟机向导”窗口,如图2-4所示。选择“稍后安装操作系统”,再点击“下一步”按钮。
(5)“新建虚拟机向导”窗口,如图2-5所示。在“客户机操作系统”选择“Linux”,接着在“版本”中选择“Ubantu64位”,之后点击“下一步”按钮。
(6)“新建虚拟机向导”窗口,如图2-6所示。在“虚拟机名称”编辑“yuhui01”,“位置”为“默认地址”,之后点击“下一步”按钮。
(7)“新建虚拟机向导”窗口,如图2-7所示。在“最大磁盘大小(GB)”框中填写“40G”,同时选择“将虚拟机磁盘存储为单个文件”,之后点击“下一步”按钮。
(8)“新建虚拟机向导”窗口,如图2-8所示。点击“完成”按钮。之后开始设置虚拟机参数。
(9)虚拟机参数设置,如图2-9所示。点击“内存”,跳转到虚拟机设置窗口。
虚拟机设置窗口,将“内存”调整为8G,如图2-10;
虚拟机设置窗口,点击“CD/DVD(SATA)”,再点击“使用ISO映像文件”,选择本地的“Ubantu22.04系统的IOS文件”。如图2-11;
虚拟机设置窗口,点击“ 网络适配器”,选择“NAT(N)模式”,最后点击确定,如图2-12所示,
温馨提示: 如果物理内存有16G,建议设置为4G。如果物理内存有32G,建议设置为8G。内存大小必须是4MB的倍数。
1.2.Ubuntu 22.04系统安装
(1)点击“开启此虚拟机”,如图2-13。
(2)选择第一项,“Try or Install Ubantu”,直接回车,如图2-14。
(3)在安装窗口,选择“中文简体”,然后点击“安装Ubuntu”按钮,如图2-15
(4)在安装窗口,键盘布局选择“Chinese”,然后点击“继续”按钮,如图2-16
(5)在安装窗口,选择“最小安装”,在“其他选项”中“取消,安装Ubantu时下载更新”,然后点击“继续”按钮,如图2-17。
(6)在安装窗口,选择“清除整个磁盘并安装Ubuntu”,然后点击“现在安装”按钮,如图2-18。
(7)在安装窗口,点击“继续”按钮,如图2-19。
(8)在安装窗口,选择上海,点击“继续”按钮,如图2-20。
(9)在安装窗口,“您的姓名”和“您的计算机名称”填写“yuhui01”,“选择一个用户名”填写“hadoop”,“选择一个密码”和“确认您的密码”填写“yuhui888”,之后点击“登录时需要密码”,再点击“继续”,如图2-21。
(10)在安装窗口,等待十分钟左右即可,如图2-22。
(11)在安装窗口,安装完成,点击“现在重启”按钮,如图2-23。
(12)显示Ubuntu登录界面,点击“yuhui01”输入密码“yuhui888”,进入桌面,如图2-24。
(13)显示Ubuntu桌面界面,窗口“Ubantu24.04 LTS 升级可用”,点击“不升级”,如图2-25。
温馨提示1: 系统千万 不要升级、不要升级、不要升级。
温馨提示2: 重复“VM虚拟机安装”和“Ubuntu 22.04系统安装”两个步骤,配置出三台虚拟机。主机名称分别为:yuhui01,yuhui02,yuhui03。每一台的主机只有一个hadoop用户。
1.3.Ubuntu 22.04网络配置
1.物理机网络配置图解
本虚拟机是在Window10系统中安装成功的。在“控制面板”中找到“网络连接”,点击“VMware Network Adapter Vmnet8”右键“属性”弹出窗口“VMware Network Adapter Vmnet8状态”,点击“属性”,点击“Internet协议版本(TCP/IPV4)”,配置IP为“192.168.200.1”和子网掩码为“255.255.255.0”,最后点击“确定”按钮,进行配置保存。如图2-26。
2.VM软件网络配置图解
在“VMware Workstation 17 Pro”首页,第一步:点击“编辑”弹出“虚拟网络编辑器”。第二步:点击“WMnet8”。第三步:配置子网IP为“192.168.200.0”,配置子网掩码为“255.255.255.0”,第四步:再点击“NAT设置”,弹出“NAT设置”窗口。第五步:配置“网关IP”为“192.168.200.2”,最后点击“确定”,保存所有配置。如图2-27 和2-28 。
3.三台Ubantu系统网络配置图解
如图2-29点击“有线设置”。如图2-30在“网络”窗口中点击“设置”。如图2-31在“有线”窗口中。第一步:点击“IPv4”,第二步:点击“手动”。第三步:配置“地址”和“DNS”,按照表1 Ubantu系统网络配置进行设置。最后点击“应用”按钮。
4)Linux下ping通三台虚拟机和Windows下ping通三台虚拟机
如图图2-31,在Ubantu系统中ping通三台虚拟机,如图图2-32,在物理机Windows系统中ping通三台虚拟机。如果都能ping通,则三台虚拟机配置完成。
往期目录
Spark大数据开发与应用案例(视频教学版)(一)–文前
Spark大数据开发与应用案例(视频教学版)(二)–第一章上
Spark大数据开发与应用案例(视频教学版)(三)–第一章下
查看 辉哥大数据