Hadoop从零开始：安装、配置及经典案例

原创已于 2025-05-13 09:04:18 修改 · 160 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-05-12 19:24:17 首次发布

hdfs: 分布式文件管理系统
海量数据存储的终极解决方案：整出来一个平台，这个平台的服务器可以无限扩展。
HDFS ：解决海量数据的存储问题 1p = 1024 T
Yarn : 计算的资源基础，所有的MR任务需要运行在Yarn上。
MapReduce：解决计算问题，它是一个计算框架（需要写代码的）
HDFS三种模式：本地模式，伪分布模式，全分布模式

本文内容介绍的就是本地模式的搭建：

配置：

1、上传
2、解压
   tar -zxvf hadoop-3.3.1.tar.gz -C /opt/installs/
3、重命名
   cd /opt/installs/
   mv hadoop-3.3.1 hadoop
4、开始配置环境变量
   vi /etc/profile
   

export HADOOP_HOME=/opt/installs/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5、刷新配置文件
   source /etc/profile
6、验证hadoop命令是否可以识别
   hadoop version

使用一下hadoop这个软件（案例WordCount）:

词频统计就是我们大数据中的HelloWorld!

在 /home 下创建了一个文件 wc.txt   命令： touch wc.txt

需要统计的词如下：
hello world spark flink
hello laoyan 2202 laolv
hello suibian suibian hello

接着使用自动的wordCount工具进行统计：
hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /home/wc.txt /home/output

hadoop jar   执行某个jar包（其实就是java代码）

/opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar  这个是jar的地址

/home/wc.txt   要统计的文件
/home/output   统计结果放哪里

如果统计的结果文件夹已经存在，会报错。
上面总结一下：

数据在本地磁盘上  /home/wc.txt
计算的结果也是在本地磁盘上 /home/ouput

案例二：π的计算

hadoop jar /opt/installs/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 100

10 代表10个任务
100 代表的是100次/每个任务