业务规则是以手机号来确定同一个用户,正常来说系统里面同一手机号只能存在一个用户。在做新系统存量用户数据迁移的时候,发现数据存在重复。
判断最早注册的用户信息是有效的,不正常添加的重复数据不可靠需要删除。这里使用的是mysql的主键自增策略,可以直接选择保留重复数据中最小的id
-- 按照重复的字段分组查询出要保留的用户id,取反查询出重复的数据,注意修改对应的表名,主键id
select *
FROM
用户表
WHERE
用户ID NOT IN (
SELECT
t.用户ID
FROM
( SELECT MIN( 用户ID) AS 用户ID FROM 用户表 GROUP BY 手机号) t
);
确认一下查询结果是否达到预期,接下来只需要修改为删除语句即可。
delete
FROM
用户表
WHERE
用户ID NOT IN (
SELECT
t.用户ID
FROM
( SELECT MIN( 用户ID) AS 用户ID FROM 用户表 GROUP BY 手机号) t
);
oralce的sql稍微麻烦一点
通过over分析函数来取出符合条件的行号
注意分组条件可以多个字段组合,如 机构||部门||名称 来确定需要的用户数据
排序字段用来确定要取的是较早的还是较新的一条
nulls last的意思是把这个字段为空的排到后面,防止取到排序字段为空的数据,
where条件就是说按照分组筛选的结果只取一条
这样在对查询出的行号做主键查询就能找到重复数据需要保留的主键,删除不包含的数据即可。
delete
from 表名
where 主键 not in(
select 主键
from (
select row_number() over(partition by 分组条件 order by 排序字段 asc nulls last) rn,t.*
from 表名 t
) where rn=1
);