从零开始了解数据采集(十七)——工业数据清洗

过去跟客户交流数采失败经验,听到过一句话:数据可以是宝藏,也可以是坑。这个“坑”指的就是未经处理的原始数据,满是错误、重复、缺失的信息,简直像一座“数据垃圾场”。

所以,想要让这些数据派上用场,第一步就得“洗洗数据”。

原始数据有多“脏”?

原始数据的“脏”,远比你想象的严重:

  • 重复和冗余:比如,一个地磅的重量数据采集了10次,只有中间连续几次稳定数据才是对的。

  • 单位混乱:像温度,既有“℃”,还有“C”,让人头大。

  • 缺失数据:贴片的连续工序里,好几个设备生产记录里“良品数”列都没数据,分析个啥?

  • 异常数据:汽车零部件产线某个冲压设备的生产速度竟然是“99999件/秒”,写科幻小说呢?

  • 过时数据:三年前的测试记录,还放在系统里占地方,打开文件夹用了25分钟。。。

这些问题要是不处理,别说分析决策了,随便做个报表都能让你怀疑人生。

五步搞定数据清洗

第一步 去重

就像整理家里,把重复的、没用的东西清出去。例如,把同一个生产设备重复采集的数据合并成一条,数据清爽了,存储空间也节省了。

第二步 统一格式

格式不统一就像大家说话不在一个频道。比如温度统一成“℃”,时间格式都用“2024-12-16 12:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李恒-聆机智能专精数采

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值