过去跟客户交流数采失败经验,听到过一句话:“数据可以是宝藏,也可以是坑。”这个“坑”指的就是未经处理的原始数据,满是错误、重复、缺失的信息,简直像一座“数据垃圾场”。
所以,想要让这些数据派上用场,第一步就得“洗洗数据”。
原始数据有多“脏”?
原始数据的“脏”,远比你想象的严重:
-
重复和冗余:比如,一个地磅的重量数据采集了10次,只有中间连续几次稳定数据才是对的。
-
单位混乱:像温度,既有“℃”,还有“C”,让人头大。
-
缺失数据:贴片的连续工序里,好几个设备生产记录里“良品数”列都没数据,分析个啥?
-
异常数据:汽车零部件产线某个冲压设备的生产速度竟然是“99999件/秒”,写科幻小说呢?
-
过时数据:三年前的测试记录,还放在系统里占地方,打开文件夹用了25分钟。。。
这些问题要是不处理,别说分析决策了,随便做个报表都能让你怀疑人生。
五步搞定数据清洗
第一步 去重
就像整理家里,把重复的、没用的东西清出去。例如,把同一个生产设备重复采集的数据合并成一条,数据清爽了,存储空间也节省了。
第二步 统一格式
格式不统一就像大家说话不在一个频道。比如温度统一成“℃”,时间格式都用“2024-12-16 12: