- 博客(3)
- 收藏
- 关注
原创 Apache Paimon 官方文档中文翻译——Concepts
的数据划分方式,用于根据某些列的值(如日期、城市、部门等)将表拆分成相关的部分。每张表可以有一个或多个分区键(partition key),用于标识特定的分区。记录了有关 LSM 数据文件和变更日志文件(changelog files)的变更信息,例如:在对应快照中,哪些 LSM 数据文件被创建,哪些文件被删除。也就是说,最终表的状态可能是两次提交的混合结果,但不会丢失任何变更。从一个快照文件开始,Paimon 的读取器可以递归地访问表中的所有记录。,用户也可以通过较早的快照访问表的历史状态。
2025-07-21 21:49:51
753
原创 Spark读取HDFS文件的并行度确定逻辑初步探讨
本文通过TPCDS数据生成实验,分析Spark读取HDFS文件时的并行度机制。实验表明,Spark任务并行度由文件大小、集群CPU核数及配置参数共同决定,其中关键参数包括spark.sql.files.maxPartitionBytes(默认128MB)和openCostInBytes(默认4MB)。Spark会根据可用计算资源动态调整分块大小,在4MB-128MB范围内尽可能提高并行度。验证案例显示:9.84MB的小表仍被分为2个task读取,证实并非简单按128MB分块。最后建议通过调整相关参数来优化并
2025-07-11 17:50:01
745
原创 flink-connector-mysql-cdc编译——flink-1.15.2版本
目前flink cdc的版本不支持flink1.15.*版本,可以自己编译cdc的源码,本文主要介绍编译过程中遇到的问题和需要注意的地方
2022-08-29 17:47:46
6675
9
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人