【数据治理】One ID中的核心技术ID-Mapping究竟是怎么实现的

本文介绍了ID Mapping在数据治理中的重要性和应用,特别是在解决数据孤岛问题上的作用。通过图数据库和图计算技术,将不同系统和端的用户数据进行识别和打通,形成统一的One ID,实现数据的全面整合,为精细化运营提供数据基础。ID Mapping的核心步骤包括要素识别、数据抽象、构建图模型、分配新ID、去重合并以及结果存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为啥要做ID Mapping?

其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题,也就不会有这波澜壮阔的数字技术发展和改革。

在 10 多年前的时候,当时IT界都还在做“四库十二金”的项目。我就接了这么一个活,就是把一个地区的所有地址给弄干净。这可就费劲了,因为同一个地址有 N 多种写法,比如说“大裤衩”,全称叫“中央电视台总部大楼”,门牌号是“北京市朝阳区东三环中路32号”,也有别称叫“中央电视台新址”,而且还有具体经纬度。

这么乱的情况,一不小心就给弄错了。我们当时接的项目就是把这乱七八糟的地址给统一了,给地理信息库提供基础数据。这上那弄去啊?太费劲了好么!

我们当时是怎么弄的呢?说来也很简单,就是比对。写规则比对,简单规则对不上,就用复杂规则对,复杂规则还对不上,就肉眼雷达看。先对大厦、门牌号啥的做清洗,把错别字等都清洗好。然后以相对比较精准的数据源为准,匹配一波,相同的先打上标记。然后把类似的也放一边,最后把都匹配不上的放一边,最后把经纬度也加上一起看。最后再人工肉眼雷达过两遍,最后剩下的就不管了。

这太痛苦了!不过我那时候技术不行,不知道用高技术。百度这边就用图数据库解决这个问题,现在在百度上搜索啥都给你弄出来:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B3UPKbSs-1649210737083)(data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==)]

在互联网场景中,这种例子到处都是。数据中台盛行之前,在 DSP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

菜鸟蜀黍

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值