(第九章) Hive企业级调优之行列过滤

最新推荐文章于 2022-09-01 16:01:57 发布

原创最新推荐文章于 2022-09-01 16:01:57 发布 · 326 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Hive企业级调优之行列过滤

智能大数据体系同时被 2 个专栏收录

57 篇文章

订阅专栏

hive

40 篇文章

订阅专栏

本文详细介绍了Hive在企业级应用中的调优策略，重点讲解了如何通过列处理和行处理提升查询效率。通过对比测试，展示了不同SQL写法对性能的影响，如使用子查询进行表连接与直接关联后过滤的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive企业级调优之行列过滤

列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。
行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，比如：
案例实操：
1．测试先关联两张表，再用where条件过滤

hive (default)> select o.id from bigtable b
join ori o on o.id = b.id
where o.id <= 10;
Time taken: 34.406 seconds, Fetched: 100 row(s)

2．通过子查询后，再关联表

hive (default)> select b.id from bigtable b
join (select id from ori where id <= 10 ) o on b.id = o.id;
Time taken: 30.058 seconds, Fetched: 100 row(s)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鞋子不会飞

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【硬刚Hive】Hive高级（2）：优化(2) 表的优化

微信搜：import_bigdata，大数据领域硬核原创作者

09-10

609

欢迎关注博客主页：微信搜：import_bigdata，大数据领域硬核原创作者_王知无(import_bigdata)_CSDN博客欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的Hive部分补充。 1 小表大表 Join（MapJOIN）将 key 相对分散，并且数据量小的表放在 join 的左边，可以使用 map jo.

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hive篇

微信搜：import_bigdata，大数据领域硬核原创作者

08-12

1716

欢迎关注博客主页：https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2.

参与评论您还未登录，请先登录后发表或查看评论

hive优化总结

zhaofmyan的专栏

08-06

685

1、提前过滤数据，减少中间数据依赖：尽量尽早的过滤数据，减少每个阶段的数据量，对于分区表要加分区，同时只选择需要使用到的数据。如下，改写后的写法将会大大减少join的数据量 select ... from A join B on A.key = B.key where A.userid>10 and B.userid and A.dt='2012041

【Hive】MapReduce 如何实现 Hive SQL 的基本操作-过滤

每天更新大数据面经和技术

09-01

718

过滤

HIVE调优之行列过滤

weixin_30716725的博客

08-26

557

列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT 行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤转载于:https://www.cnblogs.com/xiangyuguan/p/11412850.html...

黑猴子的家：Hive 表的优化之行列过滤

黑猴子的博客

09-29

936

列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT 。行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。案例实操 1、测试先关联两张表，再用where条件过滤 hive (default)> select o.id from bigtable b join...

大数据技术之Hive 第9章 企业级调优

wzq18845280610的博客

12-23

454

第9章 企业级调优9.1 Fetch抓取9.2 本地模式9.3 表的优化9.3.1 小表、大表Join9.3.2 大表Join大表9.3.4 Group By9.3.5 Count(Distinct) 去重统计9.3.6 笛卡尔积9.3.7 行列过滤9.3.8 动态分区调整9.3.9 分桶9.3.10 分区9.4 数据倾斜9.4.1 合理设置Map数9.4.2 小文件进行合并9.4.3 复杂文件增加Map数9.4.4 合理设置Reduce数9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9

hive面试题总结（大数据面试）

let_go_on的博客

08-11

4210

概述

hive-3

leezsj的博客

07-13

706

⼆级分区⼆级分区指的是在⼀张表中有两个分区,创建和插⼊时都要指定两个分区名,最常⻅的就是下⾯案例的年和⽉,创建的语法和流程都是和⼀级分区⼀样,只是多⼀个分区⽽已. create table if not exists part2( id int, name string ) partitioned by (year string,month string) row format delimited fields terminated by ','; load data local inpath

大数据相关企业面试问题一（hadoop、hive、hbase、flume）

風再起时的博客

04-19

474

1.Hadoop 1.mapreduce如果单纯的想增加map的数量提高并行度该怎么做？答：①具体的数据分片是这样的，InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一个map任务来进行处理;正常的map数量的大致是每一个Node是10~100个，对于CPU消耗较小的作业可以设置Map数量为300个左右，但是由于hadoop的每一个任务在初始化时需...

行列过滤

qq_43192537的博客

10-06

575

行列过滤列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤 1．测试先关联两张表，再用where条件过滤 hive (default)> select o.id from bigtable b join ori o on o.id = b....

Hive基础知识

Cola_F的博客

12-10

2210

HIive基础知识Hive优缺点Hive架构hive的优化思路hive如何解决数据倾斜hive和数据库的区别 Hive是Hadoop生态系统中必不可少的一个工具。它可以将存储在HDFS中的结构化数据映射为数据库中的一张表，并提供一种SQL方言对其进行查询。这些SQL语句最终会翻译成MapReduce程序执行。Hive的本质就是为了简化用户编写MapReduce程序而生成的一种框架，他本身并不会存储和计算数据，完全依赖于HDFS和MapReduce。 Hive优缺点优点 1)操作接口采用类SQL语法，提供

Ranger之Hive的行列过滤设置（六）

m0_48187193的博客

03-12

1505

Hive中的行级过滤和列屏蔽您可以使用Apache Ranger行级筛选器为行设置访问策略在Hive表。您还可以使用Ranger列屏蔽来设置屏蔽Hive列中的数据的策略，例如只显示列数据的前四个字符或后四个字符。使用Ranger策略的Hive中的行级过滤行级过滤有助于简化Hive查询。Hive通过将访问限制逻辑向下移动到Hive层，在每次尝试访问数据时应用访问限制。这有助于简化Hive查询的编写，并提供了无缝的行级分段的后台执行，而无需将此逻辑添加到查询的谓词中。关于这个任务行级过滤也提高了Ha

大数据技术

12-19

本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。

hive怎么处理过滤掉满足多个多个条件的记录_Hive的经典面试题

weixin_39633493的博客

10-18

1264

很久没有发文章了，今天发表一下Hive的总结，如果那里有不足的欢迎指正，顺便再提一个问题(数仓建模中:细化程度越高，粒度级就越小，相反，细化程度越低，粒度级就越大，这个说法能打个比方比喻出来吗？)必会的函数:select:选择 having,where:筛选 sum,max,min,count+group by:聚合 sort by,oder by:排序-row number-分组排序 disti...

Apache Ranger对Hive数据脱敏-行过滤Row Filter、列屏蔽Column Masking

王佩的CSDN博客

02-26

6294

概述 Apache Ranger对Hive数据支持两种脱敏方式：行过滤Row Filter、列屏蔽Column Masking。它可对Select结果进行行列级别数据脱敏，从而达到对用户屏蔽敏感信息的目的。注意:该功能只适用于HiveServer2使用场景(如Beeline/JDBC/Hue等途径执行的Select),对Hive Cli(如Hive -e)和直接读取Hive表的HDFS文件场景不...

大数据技术之Hive（六）

a376712116的博客

07-15

527

九、企业级调优 9.1 Fetch 抓取 Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如： SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetc...

Hive的一些总结

积硅步以致千里

03-19

449

1.架构 2.与数据库比较拥有类似的查询语言，其他不相同 1）数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2）数据更新 Hive 中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟 Hive 执行延迟较高。数据库的执行延迟较低。当然，这个是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的...