一棵枣树丶-CSDN博客

原创 Apache Paimon 官方文档中文翻译——Concepts

的数据划分方式，用于根据某些列的值（如日期、城市、部门等）将表拆分成相关的部分。每张表可以有一个或多个分区键（partition key），用于标识特定的分区。记录了有关 LSM 数据文件和变更日志文件（changelog files）的变更信息，例如：在对应快照中，哪些 LSM 数据文件被创建，哪些文件被删除。也就是说，最终表的状态可能是两次提交的混合结果，但不会丢失任何变更。从一个快照文件开始，Paimon 的读取器可以递归地访问表中的所有记录。，用户也可以通过较早的快照访问表的历史状态。

2025-07-21 21:49:51 753

原创 Spark读取HDFS文件的并行度确定逻辑初步探讨

本文通过TPCDS数据生成实验，分析Spark读取HDFS文件时的并行度机制。实验表明，Spark任务并行度由文件大小、集群CPU核数及配置参数共同决定，其中关键参数包括spark.sql.files.maxPartitionBytes（默认128MB）和openCostInBytes（默认4MB）。Spark会根据可用计算资源动态调整分块大小，在4MB-128MB范围内尽可能提高并行度。验证案例显示：9.84MB的小表仍被分为2个task读取，证实并非简单按128MB分块。最后建议通过调整相关参数来优化并

2025-07-11 17:50:01 745

原创 flink-connector-mysql-cdc编译——flink-1.15.2版本

目前flink cdc的版本不支持flink1.15.*版本，可以自己编译cdc的源码，本文主要介绍编译过程中遇到的问题和需要注意的地方

2022-08-29 17:47:46 6675 9

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人