处理缺失值
NA处理方法
dropna 根据每个标签的值是否是缺失值来筛选轴标签,并根据允许缺失的数据量来确定阈值(应用于行)
fillna 用某些值来填充确实的数据或使用插值方法,(ffillna或bfillna)(应用于列)
isnull 返回表明哪些值是缺失值的布尔值
notnull isnull的反函数
过滤缺失值
data[data.notnull()]
data.dropna(how='any'/'all',axis=0/1,thresh=n) thresh =n 保留至少有n个非NAN数据的行
补全缺失值(也可用拉格朗日插值法)
data.fillna(value,method,axis,inplace,limit)
data.fillna(0) #填充标量值
data.fillna({1:0.5,2:0}) #按列填充
value 标量值或字典型对象用于填充缺失值
method 插值方法,如果没有其他参数,默认为ffillna
axis 需要填充的轴,默认axis=0
inplace 修改被调用的对象,而不是生成一个备份
limit 用于向前或向后填充时最大的填充范围
数据转换
删除重复值
data.duplicated() #返回的是一个Series,反映的是每一行是否存在重复情况
data.drop_duplicates #返回的是DataFrame,内容是duplicated返回数