15-Hadoop MapReduce-了解一下即可

beijingliushao

已于 2025-07-25 13:47:06 修改

阅读量485

点赞数 3

CC 4.0 BY-SA版权

文章标签： hadoop mapreduce 大数据

于 2025-07-24 19:19:04 首次发布

本文链接：https://blog.csdn.net/liuqingdong126/article/details/149610096

1.理解MapReduce思想

  MapReduce的思想核心是“先分再合，分而治之”。
所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为
等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，
然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现
分布式计算的谷歌也只是实现了这种思想，而不是自己原创。

Map表示第一阶段，负责“拆分”：即把复杂的任务分解为若干个“简单的子任务”
来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有
依赖关系。
Reduce表示第二阶段，负责“合并”：即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。

在这里插入图片描述

2.Hadoop MapReduce设计构思

在这里插入图片描述

3.Hadoop MapReduce介绍

特点：
1.易于编程
Mapreduce框架提供了用于二次开发的接口；简单地实现一些接口，就可以完成
一个分布式程序。任务计算交给计算框架去处理，将分布式程序部署到hadoop
集群上运行，集群节点可以扩展到成百上千个等。
 2.良好的扩展性
当计算机资源不能得到满足的时候，可以通过增加机器来扩展它的计算能力。
基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长，
这个特点是MapReduce处理海量数据的关键，通过将计算节点增至几百或者几千
可以很容易地处理数百TB甚至PB级别的离线数据。
3.高容错性
      Hadoop集群是分布式搭建和部署得，任何单一机器节点宕机了，它可以
      把上面的计算任务转移到另一个节点上运行，不影响整个作业任务得完成，
       过程完全是由Hadoop内部完成的。
4.适合海量数据的离线处理
	可以处理GB、TB和PB级别得数据量


MapReduce局限性
MapReduce虽然有很多的优势，也有相对得局限性，局限性不代表不能做，
而是在有些场景下实现的效果比较差，并不适合用MapReduce来处理，
主要表现在以下结果方面：
	1. 实时计算性能差
	MapReduce主要应用于离线作业，无法作到秒级或者是亚秒级得数据响应。
	2 不能进行流式计算
		流式计算特点是数据是源源不断得计算，并且数据是动态的；
		而MapReduce作为一个离线计算框架，主要是针对静态数据集得，
		数据是不能动态变化得。

4.Hadoop MapReduce官方示例

 评估圆周率π（PI）的值
运行MapReduce程序评估一下圆周率的值，执行中可以去YARN页面上		观察程序的执行的情况。
第一个参数：pi表示MapReduce程序执行圆周率计算任务；
第二个参数：用于指定map阶段运行的任务task次数，并发度，这里是10；
第三个参数：用于指定每个map任务取样的个数，这里是50。

hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 50
WordCount

在这里插入图片描述

统计单词个数的案例已经在初体验中做过了

5.Map阶段执行流程

在这里插入图片描述

 	Map阶段执行过程
 第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片
 规划。默认Split size = Block size（128M），每一个切片由一个
 MapTask处理。（getSplits）
 
第二阶段：对切片中的数据按照一定的规则读取解析返回<key,value>对。
默认是按行读取数据。key是每一行的起始位置偏移量，
value是本行的文本内容。（TextInputFormat）

 第三阶段：调用Mapper类中的map方法处理数据。每读取解析出来的
 一个<key,value> ，调用一次map方法。
 
 第四阶段：按照一定的规则对Map输出的键值对进行分区partition。默认不分区，
 因为只有一个reducetask。分区的数量就是reducetask运行的数量。
 
第五阶段：Map输出数据写入内存缓冲区，达到比例溢出到磁盘上。
溢出spill的时候根  	据key进行排序sort。默认根据key字典序排序。

 第六阶段：对所有溢出文件进行最终的merge合并，成为一个文件。

6.Reduce阶段执行流程

在这里插入图片描述

Reduce阶段执行过程
 第一阶段：ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。
 
 第二阶段：把拉取来数据，全部进行合并merge，即把分散的数据
 合并成一个大的数据。再对合并后的数据排序

 第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次
 reduce方法。最后把这些输出的键值对写入到HDFS文件中。

7.Shuffle机制

 shuffle概念
 Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量
 打乱成无规则的数据。
 而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的
 无规则输出按指定的规则“打乱”成具有一定规则的数据，
 以便reduce端接收处理。
 一般把从Map产生输出开始到Reduce取得数据作为输入之前
 的过程称作shuffle。

在这里插入图片描述

Map端Shuffle
 Collect阶段：将MapTask的结果收集输出到默认大小为100M的环形缓冲区，
 保存之前会对key进行分区的计算，默认Hash分区。

 Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，
 在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner，
 还会将有相同分区号和key的数据进行排序。
 
 Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个MapTask
 最终只产生一个中间数据文件。

在这里插入图片描述

Reducer端shuffle
 Copy阶段： ReduceTask启动Fetcher线程到已经完成MapTask的节点上
 复制一份属于自己的数据。
 
Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对
内存到本地的数据文件进行合并操作

 Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段
 已经对数据进行了局部的排序，ReduceTask只需保证Copy的数据的
 最终整体有效性即可。

在这里插入图片描述

shuffle机制弊端

Shuffle是MapReduce程序的核心与精髓，是MapReduce的灵魂所在。
2.Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因，跟Shuffle机制有很大的关系。
3.Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复。

基于以上几点，大部分一线开发的团队都不用它，我们这套课程中同学们了解一下即可！！！！