Hadoop从零开始:安装、配置及经典案例

hdfs: 分布式文件管理系统
海量数据存储的终极解决方案:整出来一个平台,这个平台的服务器可以无限扩展。
HDFS : 解决海量数据的存储问题 1p = 1024 T
Yarn : 计算的资源基础,所有的MR任务需要运行在Yarn上。
MapReduce:解决计算问题,它是一个计算框架(需要写代码的)
HDFS三种模式:本地模式,伪分布模式,全分布模式

本文内容介绍的就是本地模式的搭建:

image.png


配置:

1、上传
2、解压
   tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
3、重命名
   cd /opt/installs/
   mv hadoop-3.3.1 hadoop
4、开始配置环境变量
   vi /etc/profile
   

export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5、刷新配置文件
   source /etc/profile
6、验证hadoop命令是否可以识别
   hadoop version

image.png


使用一下hadoop这个软件(案例WordCount):

词频统计就是我们大数据中的HelloWorld!

在 /home 下创建了一个文件 wc.txt   命令: touch wc.txt

需要统计的词如下:
hello world spark flink
hello laoyan 2202 laolv
hello suibian suibian hello

接着使用自动的wordCount工具进行统计:
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output

hadoop jar   执行某个jar包(其实就是java代码)

/opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar  这个是jar的地址

/home/wc.txt   要统计的文件
/home/output   统计结果放哪里

image.png

image.png


如果统计的结果文件夹已经存在,会报错。
上面总结一下:

数据在本地磁盘上  /home/wc.txt
计算的结果也是在本地磁盘上 /home/ouput

案例二:π的计算

hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 100

10 代表10个任务
100 代表的是100次/每个任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值