Pandas数据清洗与准备

本文详细介绍了Pandas库在数据清洗与准备过程中的多种方法,包括处理缺失值(过滤、填充)、数据转换(删除重复值、映射转换)、异常值检测与过滤、重命名轴索引、离散化和分箱、数据抽样、计算指标和虚拟变量以及丰富的字符串操作。通过实例讲解了如何有效地处理数据,为后续分析做好准备。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

处理缺失值

NA处理方法
dropna             根据每个标签的值是否是缺失值来筛选轴标签,并根据允许缺失的数据量来确定阈值(应用于行)
fillna                用某些值来填充确实的数据或使用插值方法,(ffillna或bfillna)(应用于列)
isnull               返回表明哪些值是缺失值的布尔值
notnull              isnull的反函数

过滤缺失值

data[data.notnull()]
data.dropna(how='any'/'all',axis=0/1,thresh=n)     thresh =n 保留至少有n个非NAN数据的行

补全缺失值(也可用拉格朗日插值法)

data.fillna(value,method,axis,inplace,limit)
data.fillna(0)                       #填充标量值
data.fillna({1:0.5,2:0})             #按列填充
value                   标量值或字典型对象用于填充缺失值
method                  插值方法,如果没有其他参数,默认为ffillna
axis                    需要填充的轴,默认axis=0
inplace                 修改被调用的对象,而不是生成一个备份
limit                   用于向前或向后填充时最大的填充范围

数据转换

删除重复值

data.duplicated()                         #返回的是一个Series,反映的是每一行是否存在重复情况
data.drop_duplicates                      #返回的是DataFrame,内容是duplicated返回数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值