接着上篇继续。数据获取之后并不能直接分析或使用,因为里面有很多无效的垃圾数据,所以必须要经过处理才可以。数据处理的主要内容包括数据清洗、数据抽取、数据交换和数据计算等。
数据清洗
数据清洗是数据价值链中最关键的一步。垃圾数据即使是通过最好的分析也可能会产生错误的结果,并造成较大的误导。
数据清洗就是处理缺失数据以及清除无意义的信息,如删除原始数据集中的无关数据、重复数据、平滑噪音数据,筛选掉与分析主题无关的数据等等。
重复值的处理
步骤如下:
1 利用DataFrame中的duplicated方法返回一个布尔型的Series,显示是否有重复行。没有显示FALSE,有则从重复的第二行起显示为TRUE
2 在利用DataFrame中的drop_duplicates方法返回一个移除了重复行的DataFrame
duplicated的格式:
duplicated(subset=None, keep='first')
括号中的参数均为可选,不写默认判断全部列
subset用于识别重复的列标签或列标签序号,默认是所有的列标签
keep为first表示除了第一次出现外,其余相同的数据被标记为重复;为last表示除了最后一次外,其余相同的数据被标记为重复;为false表示所有相同的数据都被标记为重复
drop_duplicates的格式:
drop_duplicates()
如果你想指定某个列就在括号里加入列名即可
from pandas import DataFrame from pandas import Series #造数据 df=DataFrame({'age':Series([26,85,85]),'name':Series(['xiaoqiang1','xiaoqiang2','xiaoqiang2'])}) df #判断是否