数据清洗考虑的几个个方面--阿宏

博客围绕数据清洗展开,指出实际业务中数据常为脏数据,存在缺失、噪声、不一致等问题。还介绍了数据清洗的多个方面,包括预处理、标准化处理、去重处理、错误值和缺失值处理等,以及如何修正矛盾数据和进行关联性验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

阿宏-数据清洗考虑的几个方面

1、预处理

在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):
1.数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”
2. 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”
3.数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
4.数据冗余 (Redundant)是数据量或者属性数目超出数据分析需要的情况。
5.数据集不均衡 (Imbalance)是各个类别的数据量相差悬殊的情况。
6.离群点/异常值 (Outliers)是远离数据集中其余部分的数据。
7.数据重复(Duplicate)是在数据集中出现多次的数据。

2、标准化处理

如:id对应不上
淘宝个人信息表
1 阿宏 xxxx
支付宝个人信息表
2 阿宏 xxxx
天猫个人信息表
3 阿宏 xxxx

标准化后对照表
id name tbid zfbid tmId
0001 阿宏 1 2 3

淘宝个人信息表 (+Standardid)
1 阿宏 xxxx 001
支付宝个人信息表
2 阿宏 xxxx 001
天猫个人信息表
3 阿宏 xxxx 001

3、去重处理

分2种类型
– 全部字段:distinct group by、 row_number
– 核心字段:row_number
处理结果需要保留哪条数据要看具体情况

4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位

5、缺失值处理

重新收集
分数据的重要程度
平均法、中位数
取行业标准
取最常用的值
空值替换

6、格式内容的处理

时间、日期、数值、全半角格式不一致
内容中不应该存在的内容
内容与改字段应有的内容不一致

7、逻辑错误处理

年龄超过200、月份13月日期2月30,按照缺失值处理

8、修正矛盾数据

确定那个字段是正确的

9、非需求数据清洗

10、关联性验证

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值