第3章:LLM驱动的数据探索与清洗
在传统的数据科学流程中,数据探索与清洗是耗时最长、最依赖人工的环节。它就像是为一场盛大晚宴准备食材,需要仔细清洗、去皮、切块,容不得半点马虎。但如果有一个智能助手能帮你完成这些繁琐的工作,情况又会如何呢?
本章,我们将以一个预测客户流失的电商数据集为例,演示如何利用LLM作为你的“智能数据管家”,高效地完成数据探索与清洗。
案例背景:预测电商客户流失
假设我们拥有一个名为 customer_data.csv
的数据集,它包含以下字段:
customer_id
:客户唯一IDage
:客户年龄city
:客户所在城市join_date
:注册日期last_purchase_date
:最后一次购买日期total_spend
:总消费金额churned
:是否流失(1为流失,0为未流失)
我们希望用这些数据构建一个模型来预测客户流失,而首要任务就是对数据进行清洗和准备。
1. 初步探索:让LLM发现数据中的“脏东西”
传统做法:
数据科学家会手动编写代码,例如使用 df.info() 或 df