大数据调优详解：Fetch抓取、本地模式与表优化策略

DOCX文件

726KB | 更新于2024-08-03 | 191 浏览量 | 举报收藏

立即下载

"大数据企业级调优的完整过程涵盖了多个关键环节，包括Fetch抓取、本地模式、表的优化、数据倾斜处理以及并行执行等多个方面，旨在提高大数据处理的效率和性能。以下是对这些知识点的详细说明： 9.1 Fetch抓取 Fetch抓取是Hive的一种优化策略，允许在不涉及MapReduce计算的情况下完成简单的查询任务。当查询仅涉及基本的表扫描和投影操作时，如获取表的所有记录或特定列，Hive可以直接读取存储文件并输出结果。通过配置hive.fetch.task.conversion属性，可以控制Fetch抓取的行为，将其设为"more"可以扩大适用范围，避免不必要的MapReduce执行。 9.2 本地模式针对小规模数据的查询，Hive可以启用本地模式，所有任务都在单个节点上运行，以减少启动和协调任务的开销。通过设置hive.exec.mode.local.auto为true，Hive会自动判断何时适合使用本地模式。这种方式能显著减少小数据集的处理时间。 9.3 表的优化表的优化涉及多种策略，包括： - 9.3.1 小表与大表Join：尽可能使用Broadcast Join，即将小表广播到所有节点，减少网络传输。 - 9.3.2 大表Join大表：考虑使用MapJoin，避免Reduce阶段的shuffle操作。 - 9.3.3 MapJoin：适用于小表与大表Join的情况，将小表加载到内存中。 - 9.3.4 Group By：合理设计分组键，避免数据倾斜。 - 9.3.5 Count(Distinct)：利用BitSet或Hash-based方法优化去重统计。 - 9.3.6 笛卡尔积：尽量避免大规模笛卡尔积，可能导致数据量爆炸。 - 9.3.7 行列过滤：在查询中尽早过滤掉无用的数据。 - 9.3.8 动态分区调整：根据数据分布动态调整分区大小，优化存储和查询效率。 - 9.3.9 分桶：通过Bucketing创建有序的、均匀分布的数据，便于Join操作。 - 9.3.10 分区：合理使用分区，减少不必要的数据扫描。 9.4 数据倾斜数据倾斜是大数据处理中的常见问题，表现为部分Reducer处理的数据量远大于其他Reducer，导致作业效率低下。解决方法包括： - 9.4.1 合理设置Map数：根据数据量和硬件资源分配合适的Map任务。 - 9.4.2 小文件进行合并：减少过多的小文件，避免过多的Map任务。 - 9.4.3 复杂文件增加Map数：对于结构复杂的数据，可能需要更多的Map任务来处理。 - 9.4.4 合理设置Reduce数：平衡负载，确保数据均匀分配。 9.5 并行执行并行执行是指在多任务环境中同时运行多个任务，提高整体处理速度。 9.6 严格模式启用Hive的严格模式可以检查并防止潜在的错误和不安全的查询操作。 9.7 JVM重用通过JVM重用，减少JVM的创建和销毁，降低资源消耗，提高性能。 9.8 推测执行推測执行是一种优化机制，当Hadoop检测到某些Task执行缓慢时，会启动额外的副本尝试完成相同任务，以加快整体作业进度。 9.9 压缩启用数据压缩可以减少磁盘I/O和网络传输，提高处理速度。 9.10 执行计划（Explain）通过Explain命令分析查询的执行计划，帮助识别潜在的瓶颈和优化点。企业级的大数据调优是一个综合性的过程，需要结合不同的策略和技术来优化查询性能，提升大数据处理系统的效率。"

4．关闭 mapjoin 功能（默认是打开的）

set hive.auto.convert.join = false;

5．执行小表 JOIN 大表语句

insert overwrite table jointable

select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url

from smalltable s

left join bigtable b

on b.id = s.id;

Time taken: 35.921 seconds

6．执行大表 JOIN 小表语句

insert overwrite table jointable

select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url

from bigtable b

left join smalltable s

on s.id = b.id;

Time taken: 34.196 seconds

9.3.2 大表 Join 大表

1．空 KEY 过滤

有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同

的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，

这些 key 对应的数据是异常数据，我们需要在 SQL 语句中进行过滤。例如 key 对应的字段

为空，操作如下：

案例实操

（1）配置历史服务器

配置 mapred-site.xml

<name>mapreduce.jobhistory.address</name>

<value>hadoop102:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop102:19888</value>

</property>

启动历史服务器

sbin/mr-jobhistory-daemon.sh start historyserver

查看 jobhistory

http://192.168.1.102:19888/jobhistory

（2）创建原始数据表、空 id 表、合并后数据表

// 创建原始表

create table ori(id bigint, time bigint, uid string, keyword string, url_rank int,

click_num int, click_url string) row format delimited fields terminated by '\t';

// 创建空 id 表

create table nullidtable(id bigint, time bigint, uid string, keyword string,

url_rank int, click_num int, click_url string) row format delimited fields

terminated by '\t';

// 创建 join 后表的语句

create table jointable(id bigint, time bigint, uid string, keyword string, url_rank

剩余12页未读，继续阅读

都来学

粉丝: 23

大数据调优详解：Fetch抓取、本地模式与表优化策略

大数据各类性能调优

企业级调优

数据的调优

Hive企业级调优：Fetch抓取与性能优化实践

Hive查询优化：理解Fetch抓取与执行计划解析

提升Hive性能：理解Fetch抓取与减少MapReduce任务

SQL Server大数据分页存储过程效率测试：200万数据实测与代码

优化数据处理：解决MapReduce中的数据倾斜与Fetch抓取

Hive 本地模式与 Fetch 抓取优化

Python在大数据环境下的性能调优：20年专家实战经验分享

大数据环境下的FMEA应用：分析与优化大数据平台的实战技巧

【VSCode终端性能调优实践】：大型项目优化技巧

性能调优的艺术：基于AST2500的系统优化全面指南

【CEIBA2性能调优术】：系统优化与监控技巧大公开

【前端性能调优大师】：el-select大数据处理的终极技巧

【NI-VeriStand性能调优手册】：揭秘如何优化您的仿真速度与准确性

【Go语言性能调优实战】：提升跨平台编译效率及代码性能优化技巧

大数据下的Python搜索算法：分布式计算实战应用

【msiclear性能调优手册】：卸载性能提升的秘诀

(Redis基础教程之七)如何使用Redis中的Hashes

MATLAB 18自由度二级斜齿轮弯-扭-轴耦合动力学代码（含时变啮合刚度、齿侧间隙与集中质量法建模）

最新资源