HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

最新推荐文章于 2024-04-21 12:33:44 发布

慢点走

最新推荐文章于 2024-04-21 12:33:44 发布

阅读量5.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Hive # hql 文章标签： hive sort by cluster by distribute by cluster by意义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42845682/article/details/104953351

文章目录

1. oreder by
2. sort by
3. distribute by
4. cluster by
5. cluster by有什么意义？

1. oreder by

      主要是做全局排序。
      只要hive的sql中指定了order by，那么所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block，只会启动一个reducer ）。但是对于大量数据这将会消耗很长的时间去执行。
      这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数。因为：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

2. sort by

每个reduce端都会进行排序，也就是局部有序，可以指定多个reduce。同时，如果想测试一下执行的效果，建议将输出结果保存到本地，并调整reduce的数量。（我设置成3个）

将查询结果保存到本地：

insert overwrite 
local directory '/home/data'
select * from<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。