hdfs: 分布式文件管理系统
海量数据存储的终极解决方案:整出来一个平台,这个平台的服务器可以无限扩展。
HDFS : 解决海量数据的存储问题 1p = 1024 T
Yarn : 计算的资源基础,所有的MR任务需要运行在Yarn上。
MapReduce:解决计算问题,它是一个计算框架(需要写代码的)
HDFS三种模式:本地模式,伪分布模式,全分布模式
本文内容介绍的就是本地模式的搭建:
配置:
1、上传
2、解压
tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
3、重命名
cd /opt/installs/
mv hadoop-3.3.1 hadoop
4、开始配置环境变量
vi /etc/profile
export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
5、刷新配置文件
source /etc/profile
6、验证hadoop命令是否可以识别
hadoop version
使用一下hadoop这个软件(案例WordCount):
词频统计就是我们大数据中的HelloWorld!
在 /home 下创建了一个文件 wc.txt 命令: touch wc.txt
需要统计的词如下:
hello world spark flink
hello laoyan 2202 laolv
hello suibian suibian hello
接着使用自动的wordCount工具进行统计:
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output
hadoop jar 执行某个jar包(其实就是java代码)
/opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个是jar的地址
/home/wc.txt 要统计的文件
/home/output 统计结果放哪里
如果统计的结果文件夹已经存在,会报错。
上面总结一下:
数据在本地磁盘上 /home/wc.txt
计算的结果也是在本地磁盘上 /home/ouput
案例二:π的计算
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 100
10 代表10个任务
100 代表的是100次/每个任务