引言
DataX 系列文章:
3.1 简介
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。
任务"执行器"支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU.内存.负载的监控等等。后续还将提供更多的数据源支持、数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。
3.2 安装资源说明
- DataX-Web git地址:
https://github.com/WeiYe-Jing/datax-web
- DataX-Web-UI 前端 git 地址:
https://github.com/WeiYe-Jing/datax-web-ui
- DataX Web用户手册:
https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md
当前 datax web 有三个 版本,其中
-
v2.1.1 是单体web 应用架构(建议使用)
DataX-Web 源码下载地址:https://codeload.github.com/WeiYe-Jing/datax-web/zip/refs/heads/2.1.1-release -
v2.1.2、v2.1.3 为前后端分离架构,但 DataX-Web-UI 并未适配 v2.1.2、v2.1.3 中新增功能(需自行适配)
DataX-Web 源码下载地址: https://codeload.github.com/WeiYe-Jing/datax-web/zip/refs/heads/2.1.2-release
DataX-Web-UI 前端 git 地址:https://github.com/WeiYe-Jing/datax-web-ui
3.3 基础软件
(1)MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库
(2)JDK (1.8.0_xxx) 必选
(3)Maven (3.6.1+) 必选
(4)DataX 必选
(5)Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) 必选,
主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造
3.4 DataX Web 开发环境部署
开发环境: Windows 10
开发工具:idea
版本:datax-web v2.1.1
3.4.1 创建数据库
执行bin/db下面的datax_web.sql文件(注意老版本更新语句有指定库名)
3.4.2 修改项目配置
1.修改datax_admin 下 resources/application.yml
文件
#数据源
datasource:
username: root
password: root
url: jdbc:mysql://localhost:3306/datax_web?serverTimezone=Asia/Shanghai&useLegacyDatetimeCode=false&useSSL=false&nullNamePatternMatchesAll=true&useUnicode=true&characterEncoding=UTF-8
driver-class-name: com.mysql.jdbc.Driver