Hadoop 优化

最新推荐文章于 2024-05-14 10:25:55 发布

原创最新推荐文章于 2024-05-14 10:25:55 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #大数据 #linux #hadoop #java

Hadoop 专栏收录该内容

44 篇文章

订阅专栏

本文探讨了MapReduce运行缓慢的原因，包括计算机性能、I/O操作和小文件问题，并提出了从数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题及调优参数六个方面进行优化的具体方法，如合并小文件、减少Spill和Merge次数、合理设置Map和Reduce数量等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、MapReduce 跑得慢的原因

1、计算机性能
CPU、内存、磁盘健康、网络

2、I/O 操作优化
(1) 数据倾斜
(2) Map 和 Reduce 数设置不合理
(3) Map 运行时间太长，导致 Reduce 等待过久
(4) 小文件过多
(5) 大量的不可分块的超大文件
(6) spill 次数过多
(8) Merge 次数过多等

二、MapReduce 优化方法

MapReduce 优化方法主要从六个方面考虑：数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜问题和常用的调优参数。

2.1 数据输入

1、合并小文件：在执行 MR 任务前将小文件进行合并，大量的小文件会产生大量的 Map 任务，增大 Map 任务装载次数，而任务的装载比较耗时，从而导致 MR 运行较慢。

2、采用 CombineTextInputFormat 来作为输入，解决输入端大量小文件的场景。

2.2 Map 阶段

1、减少溢写(Spill)次数：通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发 Spill 的内存上限，减少 Spill 次数，从而减少磁盘 IO。

2、减少(Merge)次数：通过调整 io.sort.factor 参数，增加 Merge 的文件数目，减少 Merge 的次数，从而缩短 MR 处理时间。

3、在 Map 之后，不影响业务逻辑的前提下，先进行 Combine 处理，减少 IO。

2.3 Reduce 阶段

1、合理设置 Map 和 Reduce 数目：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误。

2、设置 Map、Reduce 共存：减少 slowstart.completedmaps 参数，使 Map 运行到一定程序后，Reduce 也开始运行，减少 Reduce 的等待时间。

3、规避使用 Reduce：因为 Reduce 在用于连接数据集的时候会产生大量的网络消耗。

4、合理设置 Reduce 端的 Buffer：默认情况下，数据达到一个阈值的时候，Buffer 中的数据就会写入磁盘，然后 Reduce 会从磁盘中获得所有的数据。也就是说，Buffer 和 Reduce 是没有直接关联的，中间多次写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得 Buffer 中的一部分数据可以直接输送到 Reduce，从而减少 IO 开销：mapreduce.reduce.input.buffer.percent，默认为 0.0。当值大于 0 的时候，会保留指定比例的内存读 Buffer 中的数据直接拿给 Reduce 使用。这样一来，设置 Buffer 需要内存，读取数据需要内存，Reduce 计算也要内存，所以要根据作业的运行情况来进行调整。