clickhouse group by 优化神器

weixin_39210914

已于 2023-01-04 08:57:28 修改

阅读量5.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： clikhouse 文章标签： clickhouse

于 2021-06-21 18:41:47 首次发布

本文链接：https://blog.csdn.net/weixin_39210914/article/details/118091954

clikhouse 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了如何优化ClickHouse中的大数据量GroupBy操作。通过将表的分片字段设置为需要GroupBy的字段A，可以实现数据在不同服务器上的分散，从而减少内存消耗和提升查询效率。在查询时，使用`settings distributed_group_by_no_merge=1`参数，强制ClickHouse只在本地分片进行GroupBy操作，避免全表合并，显著提高性能。这种方法对于处理高分散性的字段非常有效。

clickhouse group by 优化神器

clickhouse中有时候会有对大量分散数据进行group by后再筛选的需求

比如3亿条数据按照字段A进行group by,还有2亿条，再根据其他字段的count结果进行筛选：

select A，count(*) from table_t1
group by A 
having count(*)>8

因为字段A的分散性，group by 会非常耗费内存且慢

优化方法！！！

将表t1的分片字段改为A，那么表中的数据就会自动按照A值的不同分布在不同的服务器上，那么在用A进行group by 时，实际上是不需要对其他分片的数据进行操作的，本分片group by即可！！

怎么设置只对本分片进行操作呢
就是在group by 语句后面加上一句 :
settings distributed_group_by_no_merge=1

select A，count(*) from table_t1
group by A 
having count(*)>8
settings distributed_group_by_no_merge=1

效果杠杠的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39210914

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据ClickHouse进阶（十三）：ClickHouse的GROUP BY 子句

Lansonli（蓝深李）的博客

09-21

2272

Group By子句又称聚合查询，与MySQL或者Hive中的使用方式一样，但是需要注意一点在Select查询中如果有聚合查询，例如max,min等，与聚合查询出现的字段一定要出现在Group by中，否则语句报错。ClickHouse中的Group by 还可以配合WITH ROLLUP、WITH CUBE、WITH TOTALS三种修饰符获取额外的汇总信息。CUBE 是立方体意思，WITH CUBE会基于聚合键之间所有的组合生成小计信息。

大数据新视界 -- 大数据大厂之 Impala 在大数据架构中的性能优化全景洞察（上）（13/30）

【青云交】华为云云享专家 | 阿里云开发者社区专家博主技术圈个人影响力前 17 | 博客之星 TOP23 CSDN 首位四榜（原力榜 / 作者周榜 / 领军人物 / 综合热榜）榜首，破平台纪录！苏州地区全榜霸榜，感恩全网十多万粉丝同行！

11-10

3497

本文围绕 Impala 在大数据架构中的性能优化展开，全面阐述其核心地位、与其他组件关系、优化关键维度和行业案例。文中包含丰富多样且详细的代码示例，如 Impala 与 Kafka 集成、数据重分区、内存管理、数据存储优化等，同时通过生动案例展现实际价值，为大数据从业者提供深度且实用的参考。

3 条评论您还未登录，请先登录后发表或查看评论

clickhouse 优化

zzy7075的专栏

05-12

4518

sql慢查大部分主要体现在cpu 负载过高，io过高，或者查询的列中无索引导致的；注意；clickhouse本身不太支持高并发的场景，qps过高会导致clickhouse服务器cpu过高，导致慢查在这些情况下;常见的考虑的是 sql中是否有复杂的运算，查询的数量量是否过大，查询的列中索引是否有效； sql 查询特点：数量大，且分区跨度大 data表格中有8亿多条数据，data表按照p_data_day 分区；数据会遍历整个分区，数据平均在1s左右分钟返回 ; 优化思路：减少不必要数据的遍历（分

【clickhouse查询优化】distributed_group_by_no_merge

JH_Zhai的博客

03-18

1506

https://www.bianchengquan.com/article/339806.html

ClickHouse和他的朋友们（15）Group By 为什么这么快

老叶茶馆

01-28

2743

在揭秘 ClickHouse Group By 之前，先聊聊数据库的性能对比测试问题。在虎哥看来，一个“讲武德”的性能对比测试应该提供什么信息呢？首先要尊重客观事实，在什么场景下，x 比...

groupby优化

江黎

01-16

211

大数据新视界 -- 大数据大厂之经典案例解析：广告公司 Impala 优化的成功之道（下）（10/30）

11-07

3221

本文深入探讨广告公司 Impala 优化。阐述广告数据困境，分析 Impala 优化策略，包括存储（格式选择与分区策略对比）和查询（索引、语句改写）优化。通过广告巨头 Y 案例展现优化过程和效果。强调 Parquet 格式与合适分区策略在存储效率上的优势。鼓励读者分享经验，展望 Impala 与机器学习融合，还讨论中小规模广告公司 Impala 优化思路。

大数据新视界 -- 大数据大厂之 Impala 性能提升：解析执行计划优化的神秘面纱（上）（17/30）

11-12

1392

本文围绕 Impala 执行计划优化展开，阐述其意义、结构、影响因素、初级策略、资源利用和电信案例。介绍数据分布与统计信息对执行计划的影响，给出分区、更新统计信息等优化方法，还涉及 CPU 和内存资源优化，含丰富代码与案例。旨在帮助提升 Impala 性能。

MySQL实战进阶：29+优化技巧 & NoSQL融合，如何重塑数据架构？

java专栏

06-10

2449

本文深度探索了MySQL数据库的高级运维、性能优化、高可用设计、以及与现代技术栈的集成策略，通过29个实战问题及解决方案的详尽解析，全方位覆盖了从常见性能瓶颈、高并发处理、到特定场景下的定制优化，再到MySQL与NoSQL数据库的混合使用等多个维度。我们不仅学习了如何利用InnoDB特性进行深度性能调优，构建高可用架构保障数据安全，还探讨了如何在微服务和容器化趋势下高效集成MySQL，以及如何在不同应用场景下发挥MySQL的独特优势。

物化视图占存储空间吗？ by彭文华

weixin_52346300的博客

01-25

1414

这是彭文华的第143篇原创最近选题都选神经了，就像一只在玩耍毛线团的猫，到处找线头。终于在一个群里看到有人问一个合适的问题了，我这是久旱逢甘霖哪！刚看到这个问题的时候我都楞了一下。说起来这...

ClickHouse性能优化

2401_84715997的博客

05-15

1685

列式存储是一种数据库存储技术，它将数据按列而不是按行存储。这意味着每一列的数据都存储在一起，而不是每一行的数据存储在一起。这种存储方式对于联机分析处理(OLAP)非常有用，因为它可以避免读取不必要的列，从而避免昂贵的磁盘读取操作。此外，将同一列的不同值存储在一起通常会导致更好的压缩比率（与行式系统相比），因为在实际数据中，相邻行的同一列通常具有相同或不太多的不同值。在ClickHouse中，主键和索引的定义对查询性能有很大影响。你可以在创建表时使用语句来定义主键和索引。

Clickhouse系列六：源码解读GroupBy

qq_35667076的博客

03-01

2283

单机Clickhouse GroupBy的功能是被业界津津乐道的。那么它又是怎么能达到这么好的性能的呢？优化点在哪里呢。这里我们来去探索下Clickhouse关于GroupBy的秘密。说到GroupBy那就不能不提聚合函数了，在Clickhouse里面关于GroupBy的设计是非常优秀的，Clickhouse计算引擎是通过火山模型来实现的，但是火山模型有一个非常大的性能损耗就是虚函数调用的开销

Clickhouse GROUP BY 子句 Having 子句

vkingnew 的技术博客

07-09

9535

参考： https://clickhouse.tech/docs/en/sql-reference/statements/select/group-by/ https://clickhouse.tech/docs/en/sql-reference/statements/select/having/

ClickHouse性能情况以及相关优化

lck_csdn的博客

04-18

5796

一、ClickHouse性能情况主要分为4个方面 1、单个查询吞吐量场景一：如果数据被放置在page cache中，则一个不太复杂的查询在单个服务器上大约能够以 2-10GB／s（未压缩）的速度进行处理（对于简单的查询，速度可以达到30GB／s）场景二：如果数据没有在page cache中的话，那么速度将取决于你的磁盘系统和数据的压缩率例如： a、如果一个磁盘允许以400MB／s的速度读取数据，并且数据压缩率是3，则数据的处理速度为1.2GB/s。 b、这意味着，如果你是在提取一个10字节的

group by 优化

我思故我在

09-05

4191

group by 优化方法--索引在数据量大的时候，group by 逻辑都需要构造一个带唯一索引的表，执行代价都是比较高的。因为B+树是有序的，所以直接给group by 的字段加上索引，就可以避免创建临时表排序。 group by 优化方法 -- 直接排序 Group by 默认在内存中排序，先放到内存临时表，插入一部分数据后，发现内存临时表不够用了再转成磁盘临时表为了避免这种脱了裤子放屁的操作，我们如果知道查出数据量比较大，那就直接进行磁盘排序，给语句加上SQL_BIG_RESULT命令

ClickHouse系列之查询优化

算法小生

10-21

1691

prewhere和where语句的作用相同，用来过滤数据。不同之处在于prewhere只支持*MergeTree族系列引擎的表，首先会读取指定的列数据，来判断数据过滤，等待数据过滤之后在读取select声明的列字段来补全其余属性。如下表而言，当发布日期大于10月1日，会在物化视图的存储表.inner_id.xxxx中插入数据，而当清空基础表house时，.inner_id.xxxx中的数据并不会丢失。列裁剪即指定所需要的列，而非全量*，分区裁剪就是只读取需要的分区，在过滤条件中指定。

源码分析 | ClickHouse和他的朋友们（15）Group By 为什么这么快

dbkernel 的博客

07-11

841

本文首发于 2021-01-26 21:31:12在揭秘 ClickHouse Group By 之前，先聊聊数据库的性能对比测试问题。在虎哥看来，一个“讲武德”的性能对比测试应该提供什么信息呢？首先要尊重客观事实，在什么场景下，x 比 y 快？其次是为什么 x 会比 y 快？如果以上两条都做到了，还有一点也比较重要： x 的优势可以支撑多久？是架构等带来的长期优势，还是一袋烟的优化所得，是否能持续跟上自己的灵魂。如果只是贴几个妖艳的数字，算不上是 benchmark，而是 benchmarket。好了

Clickhouse 如何在外部存储器中进行分组Group By 设置配置项 max_bytes_before_external_group_by、max_memory_usage

天河书阁 - VicRestart

09-15

1205

例如，如果 max_memory_usage 设置为10000000000，你想使用外部聚合，可以设置 max_bytes_before_external_group_by 到 10000000000，并且设置 max_memory_usage 到 20000000000。该 max_bytes_before_external_group_by 可以设置触发的阈值，当RAM消耗超过这个阈值后， GROUP BY 会把多余的临时数据输出到文件系统并在磁盘进行处理计算。将数据转储到文件系统只能在阶段1中发生。

group by 用法解析_ClickHouse和他的朋友们（6）纯手工打造的SQL解析器

weixin_39649611的博客

11-26

531

现实生活中的物品一旦被标记为“纯手工打造”，给人的第一感觉就是“上乘之品”，一个字“贵”，比如北京老布鞋。但是在计算机世界里，如果有人告诉你 ClickHouse 的 SQL 解析器是纯手工打造的，是不是很惊讶！这个问题引起了不少网友的关注，所以本篇聊聊 ClickHouse 的纯手工解析器，看看它们的底层工作机制及优缺点。枯燥先从一个 SQL 开始:EXPLAIN SELECT a,b FROM...

clickhouse group by 时数组合并操作