【DataX】数据同步到PG时遇到的分区不存在问题

文章讲述了在面临PG数据库磁盘空间不足的情况下,采用DataX进行数据同步至另一PG节点时遇到的分区不存在错误。问题在于目标数据库只创建了表而未创建分区。解决方案是在DataX的postgresqlwriter插件中设置预执行SQL,自动创建对应分区,从而成功进行数据同步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据同步到PG时遇到的分区不存在问题

前言

大概说下这个问题牵扯出来的背景,一个外场项目,选型用PG存业务数据,然后客户要求保存保留一年的数据,运行到现在服务器5个T的磁盘已经有点扛不住了,使用率接近90%:
在这里插入图片描述
项目经理无能,跟客户沟通调整存储周期无果,就把压力转给运维运营团队,经过一堆坎坷,最后决定用datax把原pg的数据同步到另一个同配置的pg节点去,然后再把原始数据清理掉,这样等于是变相的进行了存储的冷热分割了。

至于同步走的数据客户要的时候怎么办,那自然就是再同步回去了(甲方确实会想出这种刁难你的活路)

正文

问题分析

按照计划,开始进行数据同步,在部门的运维同事进行datax同步的时候一直说有问题,数据同步不了,截图如下:
在这里插入图片描述
报错信息:

no partition of relation "table_name" found for row

问题就是进行数据写入的时候,找不到对应的分区,这个触发的原因也比较简单,建表语句是:

CREATE TABLE table_name (
	......
	p_date varchar(255) NULL DEFAULT NULL::character varying,
	......
)
PARTITION BY LIST (p_date);

表建的是分区表,使用的是List Partitioning,而目标端的库只是建了表,并没有建分区,所以进行数据同步的时候,插入数据有问题,会报分区不存在。

解决方法

有了结论后,先尝试在库里先建分区:

create table tablename_20220601 partition of tablename for values in ('2022-06-01');

然后再进行同步,就能成功了。

不过总不能每次做同步前都先建分区,这样操作起来也烦得很,于是就去看了下datax的文档,找到了postgresqlwriter插件中的一个参数preSql
在这里插入图片描述
那么只需要把建分区的语句写入preSql就行了:

"writer":{
	"name":"postgresqlwriter",
	"parameter":{
		"username":"xx",
		"password":"xx",
		"column":[
			"id",
			"name"
		],
		"preSql":[
			"create table tablename_20220601 partition of tablename for values in ('2022-06-01');"
		],
		"connection":[
			{
				"jdbcUrl":"jdbc:postgresql://127.0.0.1:3002/datax",
				"table":[
					"test"
				]
			}
		]
	}
}

结语

Datax在做多数据源同步的时候,看起来依旧是目前最好用的方法,部署简单,也不对什么引擎强依赖,在做这些历史数据的同步时,属于是点击即用了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Meepoljd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值