15-Hadoop MapReduce-了解一下即可

1.理解MapReduce思想

  MapReduce的思想核心是“先分再合,分而治之”。
所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为
等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,
然后把各部分的结果组成整个问题的最终结果。
这种思想来源于日常生活与工作时的经验。即使是发布过论文实现
分布式计算的谷歌也只是实现了这种思想,而不是自己原创。

Map表示第一阶段,负责“拆分”:即把复杂的任务分解为若干个“简单的子任务”
来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有
依赖关系。
Reduce表示第二阶段,负责“合并”:即对map阶段的结果进行全局汇总。
这两个阶段合起来正是MapReduce思想的体现。

在这里插入图片描述

2.Hadoop MapReduce设计构思

在这里插入图片描述

3.Hadoop MapReduce介绍

特点:
1.易于编程
Mapreduce框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成
一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到hadoop
集群上运行,集群节点可以扩展到成百上千个等。
 2.良好的扩展性
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。
基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长,
这个特点是MapReduce处理海量数据的关键,通过将计算节点增至几百或者几千
可以很容易地处理数百TB甚至PB级别的离线数据。
3.高容错性
      Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以
      把上面的计算任务转移到另一个节点上运行,不影响整个作业任务得完成,
       过程完全是由Hadoop内部完成的。
4.适合海量数据的离线处理
	可以处理GB、TB和PB级别得数据量


MapReduce局限性
MapReduce虽然有很多的优势,也有相对得局限性,局限性不代表不能做,
而是在有些场景下实现的效果比较差,并不适合用MapReduce来处理,
主要表现在以下结果方面:
	1. 实时计算性能差
	MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
	2 不能进行流式计算
		流式计算特点是数据是源源不断得计算,并且数据是动态的;
		而MapReduce作为一个离线计算框架,主要是针对静态数据集得,
		数据是不能动态变化得。

4.Hadoop MapReduce官方示例

 评估圆周率π(PI)的值
运行MapReduce程序评估一下圆周率的值,执行中可以去YARN页面上		观察程序的执行的情况。
第一个参数:pi表示MapReduce程序执行圆周率计算任务;
第二个参数:用于指定map阶段运行的任务task次数,并发度,这里是10;
第三个参数:用于指定每个map任务取样的个数,这里是50。

hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 10 50
WordCount

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

统计单词个数的案例已经在初体验中做过了

5.Map阶段执行流程

在这里插入图片描述

 	Map阶段执行过程
 第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片
 规划。默认Split size = Block size(128M),每一个切片由一个
 MapTask处理。(getSplits)
 
第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。
默认是按行读取数据。key是每一行的起始位置偏移量,
value是本行的文本内容。(TextInputFormat)

 第三阶段:调用Mapper类中的map方法处理数据。每读取解析出来的
 一个<key,value> ,调用一次map方法。
 
 第四阶段:按照一定的规则对Map输出的键值对进行分区partition。默认不分区,
 因为只有一个reducetask。分区的数量就是reducetask运行的数量。
 
第五阶段:Map输出数据写入内存缓冲区,达到比例溢出到磁盘上。
溢出spill的时候根  	据key进行排序sort。默认根据key字典序排序。

 第六阶段:对所有溢出文件进行最终的merge合并,成为一个文件。

6.Reduce阶段执行流程

在这里插入图片描述

Reduce阶段执行过程
 第一阶段:ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。
 
 第二阶段:把拉取来数据,全部进行合并merge,即把分散的数据
 合并成一个大的数据。再对合并后的数据排序

 第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次
 reduce方法。最后把这些输出的键值对写入到HDFS文件中。

7.Shuffle机制

 shuffle概念
 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量
 打乱成无规则的数据。
 而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的
 无规则输出按指定的规则“打乱”成具有一定规则的数据,
 以便reduce端接收处理。
 一般把从Map产生输出开始到Reduce取得数据作为输入之前
 的过程称作shuffle。

在这里插入图片描述

Map端Shuffle
 Collect阶段:将MapTask的结果收集输出到默认大小为100M的环形缓冲区,
 保存之前会对key进行分区的计算,默认Hash分区。

 Spill阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,
 在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,
 还会将有相同分区号和key的数据进行排序。
 
 Merge阶段:把所有溢出的临时文件进行一次合并操作,以确保一个MapTask
 最终只产生一个中间数据文件。

在这里插入图片描述

Reducer端shuffle
 Copy阶段: ReduceTask启动Fetcher线程到已经完成MapTask的节点上
 复制一份属于自己的数据。
 
Merge阶段:在ReduceTask远程复制数据的同时,会在后台开启两个线程对
内存到本地的数据文件进行合并操作

 Sort阶段:在对数据进行合并的同时,会进行排序操作,由于MapTask阶段
 已经对数据进行了局部的排序,ReduceTask只需保证Copy的数据的
 最终整体有效性即可。

在这里插入图片描述

shuffle机制弊端

  1. Shuffle是MapReduce程序的核心与精髓,是MapReduce的灵魂所在。
    2.Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因,跟Shuffle机制有很大的关系。
    3.Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复。

基于以上几点,大部分一线开发的团队都不用它,我们这套课程中同学们了解一下即可!!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值