Hive动态分区与性能优化参数详解

TXT文件

hive

hadoop

bigdata

参数调优

下载需积分: 50 | 10KB | 更新于2024-09-07 | 120 浏览量 | 举报收藏

立即下载

"这篇文档详细解释了HIVE中的一些常用设置参数，涵盖了动态分区、文件合并策略以及本地模式的启用，这些都是Hadoop大数据处理中优化Hive性能的关键配置。" 在Hive中，动态分区是一种非常有用的功能，它允许用户在插入数据时只指定部分分区键，而其余部分可以在运行时根据数据自动确定。动态分区的两个关键参数是`hive.exec.dynamic.partition`和`hive.exec.dynamic.partition.mode`。将`hive.exec.dynamic.partition`设置为`true`开启动态分区功能，而`hive.exec.dynamic.partition.mode`设置为`nonstrict`则允许所有分区字段都为动态，但在严格模式下，至少需要有一个分区字段被显式指定。此外，为了控制动态分区的使用，还有几个参数需要调整。`hive.exec.max.dynamic.partitions.pernode`定义每个mapper或reducer可以创建的最大动态分区数，默认为100。`hive.exec.max.dynamic.partitions`限制了一个DML操作可以创建的总动态分区数，其默认值为1000。`hive.exec.max.created.files`规定了一个DML操作可以创建的文件数上限，默认为100000。这些参数的合理设置能避免系统因创建过多分区或文件而过载。文件合并策略对优化Hive性能也至关重要。`hive.merge.mapfiles`和`hive.merge.mapredfiles`分别控制是否合并Map和Reduce阶段的输出文件，以减少小文件的数量。通常，合并可以提高HDFS的效率，但过度合并可能会增加单个文件的大小，反而影响性能。`sethive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;`这个命令可以开启小文件合并，通过调整文件块大小来优化文件布局。 Hive从0.7版本开始支持本地模式执行，这对于处理小规模数据时可以显著提升效率。通过设置`hive.exec.mode.local.auto=true`，Hive可以自动决定是否使用本地模式。`setmapred.reduce.tasks`则用于设置当前会话的map和reduce任务数量，这在优化任务分配和资源利用时十分关键。理解并正确配置这些Hive参数对于优化大数据处理性能至关重要，尤其是在Hadoop集群上运行大规模查询时。通过精细调整，可以有效地平衡资源消耗与处理速度，从而提升整体的Hive作业执行效率。

开启动态分区：
hive.exec.dynamic.partition=true
默认值：false
描述：是否允许动态分区
hive.exec.dynamic.partition.mode=nonstrict
默认值：strict
描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的。
读取表的时候可以不指定分区。
设置如下参数配置动态分区的使用环境：
hive.exec.max.dynamic.partitions.pernode=100
默认值：100
描述：each mapper or reducer可以创建的最大动态分区数
hive.exec.max.dynamic.partitions=1000
默认值：1000
描述：一个DML操作可以创建的最大动态分区数
hive.exec.max.created.files=100000
默认值：100000
描述：一个DML操作可以创建的文件数
设置如下参数取消一些限制(HIVE 0.7后没有此限制)：
hive.merge.mapfiles=false
默认值：true
描述：是否合并Map的输出文件，也就是把小文件合并成一个map
hive.merge.mapredfiles=false
默认值：false
描述：是否合并Reduce的输出文件，也就是在Map输出阶段做一次reduce操作，再输出
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
这个参数表示执行前进行小文件合并，
前面三个参数确定合并文件块的大小，大于文件块大小128m的，
按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），
进行合并,最终生成了74个块。