- 博客(302)
- 收藏
- 关注

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。
2023-11-14 10:54:43
6398
7

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目
这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。
2023-06-01 14:54:13
4462
原创 (一)数据模型架构原则:四层七阶,数据湖仓建模的“第一块基石”
《新兴数据湖仓设计与实践手册·数据湖仓建模及模型命名规范(2025年)》 由四篇递进式指南组成,以“模型架构—公共规范—分层规范—命名规范”为主线,系统构建可演进、可治理、可共享的现代数据湖仓。
2025-09-02 17:55:33
672
原创 SeaTunnel 如何给 MySQL 表做“精准切片”?一篇读懂 CDC 分片黑科技
Apache SeaTunnel MySQL CDC连接器为了实现并行读取,需要将大表切分成多个分片(Split)。对于非主键表,连接器提供了多种智能切分策略来保证数据的完整性和读取效率。本文将详细介绍 Apache SeaTunnel 支持的核心切分策略,切分策略机制及实现方式,并对比各个切分策略的优劣势。
2025-09-02 17:29:55
830
原创 Apache SeaTunnel闪耀2025中国数据库技术大会,荣获「年度优秀技术团队奖」
近日,第十六届中国数据库技术大会(DTCC 2025)在北京举行。Apache SeaTunnel 作为下一代多模态、高性能、分布式海量数据集成领域的领军项目受邀参会,并摘得 2025 “年度优秀技术团队奖”。
2025-08-27 14:28:32
259
原创 收藏!史上最全 Apache SeaTunnel Source 连接器盘点 (2025版),一篇通晓数据集成生态
今天,我们将为您献上一份史上最全的 Apache SeaTunnel Source 连接器清单,带您一文领略其生态系统的广度与深度。无论您是架构师、数据工程师还是开发者,这份清单都值得您收藏!
2025-08-20 14:12:41
816
原创 把数套数据传输通道一键“折叠”成 SeaTunnel:同程工程师周晓晨的实战笔记
本文将以“选型—落地—共建—展望”为主线,透视同程旅行如何把 SeaTunnel 从备选方案变成统一数据通道,并通过 Operator、Sqoop 迁移工具、Fluss Connector、Scala 编译等二次开发,让开源项目真正长在企业的土壤上;也记录了一位程序员如何在社区里完成“使用者→贡献者→深度贡献者”的身份蜕变。
2025-08-20 11:18:39
943
原创 SeaTunnel MCP Server 入选《中国信通院开源商业产品及企业典型案例集(2025)》
在本次活动中,白鲸开源申报的「SeaTunnel MCP Server:分布式数据集成能力的“神经中枢”」案例成功入选《中国信通院开源商业产品及企业典型案例集(2025)》,并获得主办方颁发的奖牌。
2025-08-13 16:00:51
344
原创 中国 Apache 项目 OpenRank 排行榜 Top 20:白鲸开源深度参与两大上榜项目
如果把开源世界比作一条奔涌的大河,过去十年里,中国开发者已经从“岸边试水”变成了“中流击水”。。而在影响力与贡献度的双轴坐标上,。从数量上来看,在全球 Apache 项目 OpenRank 排行榜 Top20 中,中国项目占据了 7 席。但中国开发者对于 Apache 基金会项目的参与不仅论“数量”,更是讲究“质量”。Apache 基金会各国开发者贡献度排行榜 Top 20 显示,中国在贡献度、开发者总数以及贡献仓库数量等多个维度均排名第一,充分体现了中国开发者在 Apache 项目上的深度参与。
2025-08-06 17:24:29
721
原创 从《中国开源年度报告》看中国开源力量的十年变迁中,Apache SeaTunnel 的跃迁
十年前,中国开发者更多扮演着开源世界的“搬运工”:下载、试用、反馈,贡献寥寥。转折点出现在 2019 年前后,ASF 孵化器里的中国面孔开始增多,SeaTunnel 正是在 2021 年迈入孵化器的大门。2023 年,中国开发者对 Apache 基金会的贡献度首次超过美国,2024 年则把优势扩大到“比美国少一半的人,却交出了近一半的贡献”。技术纵深——自研 Zeta 引擎在同样硬件下数据同步性能快 30%,让“国产替代”不再只是口号;场景纵深。
2025-08-06 17:07:57
999
原创 深入底层:如何优雅部署 SeaTunnel 分离集群到 Kubernetes
*准备 Kubernetes 环境:**确保已搭建并运行一个可用的 Kubernetes 集群,并安装所有必要的组件。**构建 SeaTunnel Docker 镜像:**如果没有二次开发需求,可直接使用官方提供的镜像。否则,在本地编译打包后,编写 Dockerfile 并构建 SeaTunnel 镜像。
2025-08-06 16:36:12
746
原创 社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!
为了帮助用户更顺利地迁移到 Apache SeaTunnel 平台,社区成员提出了一个实用建议:开发一个通用的配置转换工具,支持将多种数据集成工具的配置文件转换为 SeaTunnel 支持的 HOCON 或 JSON 格式。这样,用户在迁移过程中将更加省心高效。
2025-07-31 16:49:30
733
原创 破 400!Apache SeaTunnel 成为全球开发者共建热土
随着 Apache SeaTunnel 项目在全球数据集成领域的不断发展壮大,今天我们迎来了一个重要的里程碑 —— GitHub 贡献者数量正式突破 400 人!
2025-07-22 16:43:17
598
原创 SeaTunnel 云仓连接器使用指南 | AI 助手解读系列
最近体验了一下 Deepwiki 的 AI 文档生成功能,本文展示其自动生成的《SeaTunnel 云端数据仓库连接器》文档内容,欢迎大家一起“挑刺捉虫”,看看 AI 写技术文档到底靠不靠谱?
2025-07-22 16:42:15
781
原创 主键分布不均 SeaTunnel CDC 同步卡顿多日?这样优化终于通了!
我们项目使用seatunnel从业务库抽数到数仓(StarRocks),已经成功使用Mysql-CDC做了大量的实时同步。但最近在抽一个MySQL表的时候遇到了异常情况,作业启动之后,日志显示读写数量一直为0,且长时间不停止,运行6小时之后以checkpoint timeout异常停止。
2025-07-08 16:18:02
619
原创 Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。
2025-07-08 16:16:31
861
原创 白鲸开源斩获「创业新星企业奖」,双开源项目同步摘奖!
在近日举行的 2025 上海开源创新菁英荟上,白鲸开源凭借在开源生态建设与技术商业化的双重突破,荣获 「创业新星企业奖」。
2025-07-02 11:45:48
465
原创 喜讯!Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖
近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。
2025-07-02 11:44:53
338
原创 SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?
在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spark 引擎并行性修复、Paimon 精度兼容性增强、Mongo-CDC ExactlyOnce 默认值优化、Oracle DDL 类型支持补全等核心问题,稳定性和兼容性持续升级。
2025-07-01 17:32:25
1145
原创 SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。
2025-07-01 14:45:44
211
原创 一文吃透 SeaTunnel 线程共享机制与任务执行模型设计优化
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深度剖析这些创新机制如何让 Zeta 引擎实现性能数倍提升。
2025-06-24 10:39:45
740
原创 客户案例 | 某大型综合性券商借助白鲸开源产品打造全链路智能调度与数据集成平台
在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。
2025-06-19 10:30:44
706
原创 SQL Server CDC 机制全解:如何用 SeaTunnel 构建高效实时数据同步方案
在构建 AI-Ready 企业级数据集成方案中,SQL Server 的 CDC(Change Data Capture)机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力,适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。
2025-06-17 10:54:59
916
原创 实测提速 60%!Maven Daemon 全面加速 SeaTunnel 编译打包效率
综合测试数据可见,在 SeaTunnel 项目编译打包场景中,采用 Maven Daemon(mvnd)方案较传统 Maven 构建模式展现出显著性能优势:通过守护进程复用 JVM 环境及并行计算优化,相同构建任务的执行效率提升约 60%,大幅缩短了项目编译打包耗时。
2025-06-17 10:49:55
470
原创 3分钟搞懂 Apache SeaTunnel CDC 数据同步
CDC(Change Data Capture)是一种用于跟踪数据库库变更事件(插入、更新、删除)中的行级更改,并将事件以发生的顺序通知到其他系统处理。在容灾场景下,CDC主要实现的是主备间的数据同步,即从主数据库到备数据库的数据实时同步。
2025-06-17 10:07:45
775
原创 【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题
技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。
2025-06-11 17:18:27
742
原创 如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析
本文将聚焦分析 SeaTunnel 中 MySQL-CDC 插件及其 Sink 输出的数据格式,并进一步探讨在实际场景中将 SeaTunnel 与 Databend 进行集成的可行性与实现路径。
2025-06-11 17:16:49
1027
原创 多源多表写入、数据格式增强,SeaTunnel 2.3.11 重磅更新来了!
我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布!
2025-06-05 15:03:34
795
原创 【异常总结】SeaTunnel集群脑裂配置优化方法
会根据该参数中该参数和历史回收耗时来计算本次要回收多少Region才能耗时200ms,假如回收了一部分远远没有达到回收的效果,G1还有一个特殊处理方法,STW后进行回收,然后恢复系统线程,然后再次STW,执行混合回收掉一部分Region,‐XX:G1MixedGCCountTarget=8 (默认是8次),反复执行上述过程8次。eg:假设要回收400个Region,如果受限200ms,每次只能回收50个Region,反复8次刚好全部回收完毕,避免单次停顿回收STW时间太长。该检测器默认处于禁用状态。
2025-05-27 18:35:29
889
原创 自然语言×数据集成新范式:SeaTunnel MCP深度解读 | 附视频讲解
此前,社区推出一篇文章《Apache SeaTunnel MCP Server:让AI成为你的ETL助手》介绍了即将推出的SeaTunnel MCP Server 能力,受到了大家的热烈反响。为了让大家更加深入地了解这个项目,社区又邀请到了该项目的核心开发者在线上 Meetup 上通过视频演示进行了长达十多分钟的细节展示。本文将此次活动整理成文字,带领大家再来深度了解一下 SeaTunnel MCP 的设计理念、架构演进及未来规划,适合对智能数据集成与大模型交互感兴趣的技术开发者阅读。
2025-05-27 18:24:06
742
原创 一招解决SeaTunnel Excel中无法将数字类型转换成字符串类型的问题 | 附源码打包
针对SeaTunnel处理Excel数字类型强转为字符串时导致的类型异常,本文将详解如何通过修改源码,实现数字类型到数据库字符串字段的兼容推送,并通过Maven打包部署修复后的代码。
2025-05-27 18:16:40
342
原创 4月报 | SeaTunnel支持TDengine的多表Sink功能
在本月的众多更新中,最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持(由 @jia17 提交)。这一功能的引入,标志着 SeaTunnel 在面向时序数据库的数据写入能力上迈出了关键一步。
2025-05-27 18:14:32
849
原创 Java资源管理与防止泄漏:从SeaTunnel源码看资源释放
资源管理是 Java 开发中常被忽视却至关重要的一环。本文从 SeaTunnel 案例出发,探讨 Java 中如何正确管理资源,防止资源泄漏。
2025-05-19 18:20:42
463
原创 WhaleTunnel 信创数据库适配能力全景图:打通国产数据生态的最后一公里
随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。
2025-05-14 15:58:43
709
原创 他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!
最初是为了将 Elasticsearch 中的存量数据导出到其他存储系统。
2025-05-14 15:48:10
414
原创 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制
随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩展、易维护且具备复杂场景的数据处理与智能容错机制。本文将围绕实际功能扩展与设计理念,全面介绍相关技术实现。
2025-05-08 16:07:01
682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人