尚硅谷_ClickHouse

最新推荐文章于 2025-07-21 13:37:17 发布

风满楼i

最新推荐文章于 2025-07-21 13:37:17 发布

阅读量319

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： java 开发语言后端

本文链接：https://blog.csdn.net/m0_45204457/article/details/122288229

大数据专栏收录该内容

11 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入介绍了ClickHouse的特点，如高吞吐写入、数据分区与并行处理。讲解了其安装、数据类型、表引擎（如TinyLog、Memory、MergeTree及其优化）以及查询优化策略，包括Prewhere、数据采样和多表关联优化。强调了ClickHouse在数据一致性和查询性能方面的关键点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第 1 章 ClickHouse 入门

ClickHouse 的特点

高吞吐写入能力
ClickHouse 采用类 LSM Tree的结构，数据写入后定期在后台 Compaction。通过类 LSM tree的结构，ClickHouse 在数据导入时全部是顺序 append 写，写入后数据段不可更改，在后台compaction 时也是多个段 merge sort 后顺序写回磁盘。顺序写的特性，充分利用了磁盘的吞
吐能力，即便在 HDD 上也有着优异的写入性能。
数据分区与线程级并行
ClickHouse 将数据划分为多个 partition，每个 partition 再进一步划分为多个 index granularity(索引粒度)，然后通过多个 CPU核心分别处理其中的一部分来实现并行数据处理。在这种设计下，单条 Query 就能利用整机所有 CPU。极致的并行处理能力，极大的降低了查询延时。所以，ClickHouse 即使对于大量数据的查询也能够化整为零平行处理。但是有一个弊端就是对于单条查询使用多 cpu，就不利于同时并发多条查询。所以对于高 qps 的查询业务，ClickHouse 并不是强项。