自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Apache Paimon 官方文档中文翻译——Concepts

的数据划分方式,用于根据某些列的值(如日期、城市、部门等)将表拆分成相关的部分。每张表可以有一个或多个分区键(partition key),用于标识特定的分区。记录了有关 LSM 数据文件和变更日志文件(changelog files)的变更信息,例如:在对应快照中,哪些 LSM 数据文件被创建,哪些文件被删除。也就是说,最终表的状态可能是两次提交的混合结果,但不会丢失任何变更。从一个快照文件开始,Paimon 的读取器可以递归地访问表中的所有记录。,用户也可以通过较早的快照访问表的历史状态。

2025-07-21 21:49:51 753

原创 Spark读取HDFS文件的并行度确定逻辑初步探讨

本文通过TPCDS数据生成实验,分析Spark读取HDFS文件时的并行度机制。实验表明,Spark任务并行度由文件大小、集群CPU核数及配置参数共同决定,其中关键参数包括spark.sql.files.maxPartitionBytes(默认128MB)和openCostInBytes(默认4MB)。Spark会根据可用计算资源动态调整分块大小,在4MB-128MB范围内尽可能提高并行度。验证案例显示:9.84MB的小表仍被分为2个task读取,证实并非简单按128MB分块。最后建议通过调整相关参数来优化并

2025-07-11 17:50:01 745

原创 flink-connector-mysql-cdc编译——flink-1.15.2版本

目前flink cdc的版本不支持flink1.15.*版本,可以自己编译cdc的源码,本文主要介绍编译过程中遇到的问题和需要注意的地方

2022-08-29 17:47:46 6675 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除