二 MapReduce 各阶段流程分析

最新推荐文章于 2020-08-22 23:01:28 发布

装B五分钟，挨打两小时

最新推荐文章于 2020-08-22 23:01:28 发布

阅读量219

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 hadoop java spark mapreduce

那些你很早爬起来努力的时光，那些你熬夜训练的日子，那些你觉得太累了不想努力并强迫自己但仍咬牙坚持的时光，那才是追寻梦想的意义，那就是梦想力量。但是真正的梦想不是到达终点，而是享受旅途。如果你们能够理解这个道理。你会发现，在努力的过程中。你的梦想或许会实现，或许不会。但总有一些更伟大的事情会随之而来。

本文链接：https://blog.csdn.net/cs261244787/article/details/109635463

本文详细分析了MapReduce的Map Task和Reduce Task的执行流程。Map阶段包括Read、Map、Collect、Spill和Combine五个步骤，其中Map函数处理输入数据，Collect将结果写入内存缓冲区，溢写阶段会将数据排序并写入本地磁盘。Reduce阶段主要包括Shuffle、Merge、Sort、Reduce和Write，Shuffle阶段数据被拷贝并可能写入磁盘，Merge过程不断合并文件，Sort保证数据按key排序，最后Reduce函数处理数据并写入HDFS。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

系统资源，尤其是集群内部网络资源使用情况。 MR 可以运行在共享集群上处理 TB 级甚至 PB 级的数据。同时，改作业与共享集群的机器上数以百计的任务存在竞争关系。

MapReduce 关注点：

hadoop MapReduce 作业被分成一系列运行在分布式集群中的 map 任务和 reduce 任务。因此负载是遍布集群中的各个节点的。 map 任务主要负责数据的载入、解析、转换、和过滤。每个 reduce 任务负责处理 map 任务输出结果的一个子集，然后 reduce 任务从 mapper 任务处复制 map 任务的中间数据，进行分组和聚合操作。从简单的聚合到复杂的关联以及笛卡尔积操作。

MapReduce

文件分块Block，Split读块，到Map，到Reduce的过程

下面引用的这个图特么有点问题。画错了。

Partitioner 是根据 key 或 value 及 reduce 的数量来决定当前的这对输出数据交给那个 reduce task，默认是对 key 进行 hash 后再以reduce 数量取模。是为了平均 reduce 的处理能力。Partitioner 的默认内存缓冲区是 100MB，当 mapTask输出更多结果的时候就会将数据刷入磁盘中形成临时文件，然后再次利用缓冲区进行写。就是 Spill 过程。溢写是由单独线程来完成，不影响往缓冲区写 map 结果的线程。溢写的阈值时 0.8 也就是 80MB 后开始启动溢写， Spill 会将这80MB 内存锁定，执行溢写。 MapTask 还可以继续写入剩下的20MB 互不影响。内存缓冲区不会对发送到相同的 reduce 端的数