ClickHouse性能优化

最新推荐文章于 2025-07-06 14:21:51 发布

2401_84715997

最新推荐文章于 2025-07-06 14:21:51 发布

阅读量1.6k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：程序员文章标签：单元测试功能测试学习

本文链接：https://blog.csdn.net/2401_84715997/article/details/138891478

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上软件测试知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化的资料的朋友，可以戳这里获取

6.3.8 如何监控ZooKeeper状态

6.3.9 如何使用clickhouse-backup进行数据备份

6.3.10 如何解决网络堵塞问题

1. 了解ClickHouse的架构

1.1 ClickHouse的分布式架构

ClickHouse的分布式架构允许您将数据分片存储在多个服务器上，以提高查询性能和可靠性。在ClickHouse中，可以使用分布式表来实现数据分片。分布式表会根据定义的分片键将数据分发到不同的服务器上。可以使用随机数或哈希函数作为分片键。

此外，ClickHouse还支持数据复制，以提供容错能力。可以使用ReplicatedMergeTree表来实现数据复制。ClickHouse Keeper提供了用于数据复制和分布式DDL查询执行的协调系统。ClickHouse Keeper与Apache ZooKeeper兼容。

1.1.1 ClickHouse是读写分离架构吗

ClickHouse是一个列式数据库管理系统，它支持数据复制和分片。你可以在多个服务器上部署ClickHouse集群，以提高数据的容错能力和查询性能。

在ClickHouse集群中，每个分片都可以包含多个副本。每个副本都存储了一份完整的数据。当你执行写入操作时，数据会被写入到所有副本中。当你执行查询操作时，查询会被发送到一个健康的副本上执行。

因此，ClickHouse并不是严格意义上的读写分离架构。所有副本都可以用于读写操作。但是，由于每个分片都包含多个副本，所以你可以通过负载均衡来分配查询请求，从而实现类似于读写分离的效果。

1.1.2 如何查询ClickHouse的分布式表

查询ClickHouse的分布式表与查询普通表非常相似。只需编写一个标准的SQL查询，并将其指向分布式表即可。当查询分布式表时，ClickHouse会自动将查询发送到所有分片，并将结果合并在一起。

例如，如果您有一个名为my\_distributed\_table的分布式表，您可以使用以下查询来检索所有行：

SELECT * FROM my_distributed_table;

这个查询会被自动发送到所有分片，并返回所有分片中的所有行。

1.2 数据存储方式

ClickHouse是一个真正的列式数据库管理系统。数据按列存储，并在执行过程中以数组（向量或列块）的形式处理。只要有可能，操作都会在数组上进行，而不是在单个值上进行。这被称为“向量化查询执行”，它有助于降低实际数据处理的成本。

通常，处理的数据存储在本地文件系统中，即与ClickHouse服务器位于同一台机器上。这需要大容量磁盘，可能会非常昂贵。为了避免这种情况，您可以将数据远程存储在Amazon S3磁盘或Hadoop分布式文件系统（HDFS）中。要使用Amazon S3磁盘上存储的数据，请使用S3表引擎；要使用Hadoop分布式文件系统中的数据，请使用HDFS表引擎。

ClickHouse使用列式存储来存储数据。这意味着，每一列的数据都单独存储在一个文件中。这种存储方式有助于提高查询性能，因为在处理查询时，只需要读取相关的列，而不需要读取整张表。

此外，ClickHouse还使用了多种压缩算法来压缩数据。这些压缩算法可以有效地减少磁盘空间占用，并提高查询性能。

在存储数据时，ClickHouse会将数据分成多个分区。每个分区包含一段时间内的数据。分区可以帮助提高查询性能，因为在处理查询时，只需要扫描相关的分区，而不需要扫描整张表。

总之，在ClickHouse中，数据存储方式包括列式存储、数据压缩和分区等技术。这些技术都有助于提高查询性能。

1.2.1 如何配置数据压缩

在ClickHouse中，数据压缩是自动进行的，无需手动配置。但是，可以通过调整配置参数来控制数据压缩的行为。

例如，可以在config.xml文件中配置<compression>标签来指定压缩算法和压缩级别。下面是一个简单的示例：

<compression>
    <case>
        <min_part_size>10000000000</min_part_size>
        <min_part_size_ratio>0.01</min_part_size_ratio>
        <method>zstd</method>
        <level>1</level>
    </case>
</compression>

上面的配置指定了当分区大小大于10GB或占总大小的1%时，使用zstd算法进行压缩，并且压缩级别为1。

此外，还可以配置其他参数来控制数据压缩的行为。例如，可以配置<min\_rows>和<min\_bytes>参数来指定触发压缩的最小行数和最小字节数。

总之，在ClickHouse中，可以通过调整配置参数来控制数据压缩的行为。

1.2.2 如何选择合适的压缩算法

在ClickHouse中，可以根据数据特征和查询需求来选择合适的压缩算法。例如：

LZ4：LZ4算法具有较快的压缩和解压速度，但压缩率较低。适用于对查询性能要求较高，但对磁盘空间占用要求不高的场景。
ZSTD：ZSTD算法具有较高的压缩率，但压缩和解压速度较慢。适用于对磁盘空间占用要求较高，但对查询性能要求不高的场景。
Delta + LZ4/ZSTD：Delta编码可以有效地压缩有序数据。可以将Delta编码与LZ4或ZSTD算法结合使用，以提高压缩率。

此外，在选择压缩算法时，还应考虑数据类型、数据分布、查询模式等因素。可以通过测试不同的压缩算法来确定最佳的压缩方案。

总之，在ClickHouse中，可以根据数据特征和查询需求来选择合适的压缩算法。

1.2.3 如何清理旧数据

在ClickHouse中，可以使用多种方法来清理旧数据。例如：

使用ALTER TABLE ... DELETE语句：可以使用ALTER TABLE ... DELETE语句来删除不再需要的数据。例如，可以执行以下SQL语句来删除早于2022年1月1日的数据：

ALTER TABLE mytable DELETE WHERE date < '2022-01-01';

使用ALTER TABLE ... DROP PARTITION语句：如果需要删除整个分区的数据，可以使用ALTER TABLE ... DROP PARTITION语句。例如，可以执行以下SQL语句来删除2022年1月份的数据：

ALTER TABLE mytable DROP PARTITION '202201';

使用TTL设置：可以在创建表时指定TTL设置，以自动删除过期数据。例如，可以执行以下SQL语句来创建一个带有TTL设置的表：

CREATE TABLE mytable
(
    date Date,
    id UInt32,
    value String,
    TTL date + INTERVAL 1 MONTH
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(date)
ORDER BY id;

上面的SQL语句指定了一个TTL设置，表示数据在插入1个月后会自动过期并被删除。

总之，在ClickHouse中，可以使用ALTER TABLE ... DELETE语句、ALTER TABLE ... DROP PARTITION语句和TTL设置等方法来