基于python的大数据分析-数据处理（代码实战）

最新推荐文章于 2025-07-04 14:39:41 发布

原创

最新推荐文章于 2025-07-04 14:39:41 发布 · 2.2w 阅读

86 ·

CC 4.0 BY-SA版权

文章标签：

#python大数据测试分析 #测试帮日记 #小强测试品牌 #大话软件测试

博客内容介绍了Python在大数据分析中的数据清洗过程，包括处理重复值和缺失值。通过使用DataFrame的duplicated和drop_duplicates方法去除重复行，以及利用isnull和notnull识别并处理缺失数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接着上篇继续。数据获取之后并不能直接分析或使用，因为里面有很多无效的垃圾数据，所以必须要经过处理才可以。数据处理的主要内容包括数据清洗、数据抽取、数据交换和数据计算等。

数据清洗

数据清洗是数据价值链中最关键的一步。垃圾数据即使是通过最好的分析也可能会产生错误的结果，并造成较大的误导。

数据清洗就是处理缺失数据以及清除无意义的信息，如删除原始数据集中的无关数据、重复数据、平滑噪音数据，筛选掉与分析主题无关的数据等等。

重复值的处理

步骤如下：

1 利用DataFrame中的duplicated方法返回一个布尔型的Series，显示是否有重复行。没有显示FALSE,有则从重复的第二行起显示为TRUE

2 在利用DataFrame中的drop_duplicates方法返回一个移除了重复行的DataFrame

duplicated的格式：

duplicated(subset=None, keep='first')

括号中的参数均为可选，不写默认判断全部列

subset用于识别重复的列标签或列标签序号，默认是所有的列标签

keep为first表示除了第一次出现外，其余相同的数据被标记为重复；为last表示除了最后一次外，其余相同的数据被标记为重复；为false表示所有相同的数据都被标记为重复

drop_duplicates的格式：

drop_duplicates()

如果你想指定某个列就在括号里加入列名即可

from pandas import DataFrame
from pandas import Series

#造数据
df=DataFrame({'age':Series([26,85,85]),'name':Series(['xiaoqiang1','xiaoqiang2','xiaoqiang2'])})
df

#判断是否

最低0.47元/天解锁文章

新学期VIP享超值加赠