1.理解MapReduce思想
MapReduce的思想核心是“先分再合,分而治之”。
所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为
等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,
然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现
分布式计算的谷歌也只是实现了这种思想,而不是自己原创。
Map表示第一阶段,负责“拆分”:即把复杂的任务分解为若干个“简单的子任务”
来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有
依赖关系。
Reduce表示第二阶段,负责“合并”:即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。
2.Hadoop MapReduce设计构思
3.Hadoop MapReduce介绍
特点:
1.易于编程
Mapreduce框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成
一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到hadoop
集群上运行,集群节点可以扩展到成百上千个等。
2.良好的扩展性
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。
基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长,
这个特点是MapReduce处理海量数据的关键,通过将计算节点增至几百或者几千
可以很容易地处理数百TB甚至PB级别的离线数据。
3.高容错性
Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以
把上面的计算任务转移到另一个节点上运行,不影响整个作业任务得完成,
过程完全是由Hadoop内部完成的。
4.适合海量数据的离线处理
可以处理GB、TB和PB级别得数据量
MapReduce局限性
MapReduce虽然有很多的优势,也有相对得局限性,局限性不代表不能做,
而是在有些场景下实现的效果比较差,并不适合用MapReduce来处理,
主要表现在以下结果方面:
1. 实时计算性能差
MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
2 不能进行流式计算
流式计算特点是数据是源源不断得计算,并且数据是动态的;
而MapReduce作为一个离线计算框架,主要是针对静态数据集得,
数据是不能动态变化得。
4.Hadoop MapReduce官方示例
评估圆周率π(PI)的值
运行MapReduce程序评估一下圆周率的值,执行中可以去YARN页面上 观察程序的执行的情况。
第一个参数:pi表示MapReduce程序执行圆周率计算任务;
第二个参数:用于指定map阶段运行的任务task次数,并发度,这里是10;
第三个参数:用于指定每个map任务取样的个数,这里是50。
hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 50
WordCount
统计单词个数的案例已经在初体验中做过了
5.Map阶段执行流程
Map阶段执行过程
第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片
规划。默认Split size = Block size(128M),每一个切片由一个
MapTask处理。(getSplits)
第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。
默认是按行读取数据。key是每一行的起始位置偏移量,
value是本行的文本内容。(TextInputFormat)
第三阶段:调用Mapper类中的map方法处理数据。每读取解析出来的
一个<key,value> ,调用一次map方法。
第四阶段:按照一定的规则对Map输出的键值对进行分区partition。默认不分区,
因为只有一个reducetask。分区的数量就是reducetask运行的数量。
第五阶段:Map输出数据写入内存缓冲区,达到比例溢出到磁盘上。
溢出spill的时候根 据key进行排序sort。默认根据key字典序排序。
第六阶段:对所有溢出文件进行最终的merge合并,成为一个文件。
6.Reduce阶段执行流程
Reduce阶段执行过程
第一阶段:ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。
第二阶段:把拉取来数据,全部进行合并merge,即把分散的数据
合并成一个大的数据。再对合并后的数据排序
第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次
reduce方法。最后把这些输出的键值对写入到HDFS文件中。
7.Shuffle机制
shuffle概念
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量
打乱成无规则的数据。
而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的
无规则输出按指定的规则“打乱”成具有一定规则的数据,
以便reduce端接收处理。
一般把从Map产生输出开始到Reduce取得数据作为输入之前
的过程称作shuffle。
Map端Shuffle
Collect阶段:将MapTask的结果收集输出到默认大小为100M的环形缓冲区,
保存之前会对key进行分区的计算,默认Hash分区。
Spill阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,
在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,
还会将有相同分区号和key的数据进行排序。
Merge阶段:把所有溢出的临时文件进行一次合并操作,以确保一个MapTask
最终只产生一个中间数据文件。
Reducer端shuffle
Copy阶段: ReduceTask启动Fetcher线程到已经完成MapTask的节点上
复制一份属于自己的数据。
Merge阶段:在ReduceTask远程复制数据的同时,会在后台开启两个线程对
内存到本地的数据文件进行合并操作
Sort阶段:在对数据进行合并的同时,会进行排序操作,由于MapTask阶段
已经对数据进行了局部的排序,ReduceTask只需保证Copy的数据的
最终整体有效性即可。
shuffle机制弊端
- Shuffle是MapReduce程序的核心与精髓,是MapReduce的灵魂所在。
2.Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因,跟Shuffle机制有很大的关系。
3.Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复。
基于以上几点,大部分一线开发的团队都不用它,我们这套课程中同学们了解一下即可!!!!