数据整理与重塑及自动化数据清洗

立即解锁

发布时间: 2025-09-01 00:53:27 阅读量: 14 订阅数: 18

Python数据清洗实战指南

### 数据整理与重塑及自动化数据清洗在数据处理过程中，数据的整理与重塑以及自动化数据清洗是非常重要的环节。下面将详细介绍相关的操作方法和技巧。 #### 1. 数据整理与重塑在处理数据时，我们常常需要将数据从宽格式转换为长格式，或者从长格式转换回宽格式。以下是具体的操作方法。 ##### 1.1 使用 `stack` 和 `melt` 进行数据重塑 `stack` 和 `melt` 都可以将数据从宽格式转换为长格式，但 `melt` 提供了更多的灵活性。`stack` 会将所有列名移动到索引中，而 `melt` 可以基于除索引之外的 ID 变量旋转列名和值。操作步骤如下： 1. **导入 pandas 并加载数据**： ```python import pandas as pd nls97 = pd.read_csv("data/nls97g.csv", low_memory=False) nls97.set_index('personid', inplace=True) ``` 2. **查看部分工作周数和大学入学数据**： ```python weeksworkedcols = ['weeksworked17', 'weeksworked18', 'weeksworked19', 'weeksworked20', 'weeksworked21'] colenrcols = ['colenroct17', 'colenroct18', 'colenroct19', 'colenroct20', 'colenroct21'] nls97.loc[nls97.originalid.isin([2, 3]), ['originalid'] + weeksworkedcols + colenrcols].T ``` 3. **使用 `melt` 进行数据重塑**： ```python weeksworkedmelted = nls97.reset_index().loc[:, ['originalid'] + weeksworkedcols].melt(id_vars=['originalid'], value_vars=weeksworkedcols, var_name='year', value_name='weeksworked') weeksworkedmelted.loc[weeksworkedmelted.originalid.isin([2, 3])].sort_values(['originalid', 'year']) ``` ##### 1.2 使用 `wide_to_long` 一次性转换多组列当需要融化多组列时，可以使用 `wide_to_long` 函数一次性完成任务。该函数比 `melt` 具有更多的功能，但使用起来稍微复杂一些。操作步骤如下： 1. **导入 pandas 并加载数据**： ```python import pandas as pd nls97 = pd.read_csv("data/nls97g.csv", low_memory=False) nls97.set_index('personid', inplace=True) ``` 2. **查看部分工作周数和大学入学数据**： ```python weeksworkedcols = ['weeksworked17', 'weeksworked18', 'weeksworked19', 'weeksworked20', 'weeksworked21'] colenrcols = ['colenroct17', 'colenroct18', 'colenroct19', 'colenroct20', 'colenroct21'] nls97.loc[nls97.originalid.isin([2, 3]), ['originalid'] + weeksworkedcols + colenrcols].T ``` 3. **运行 `wide_to_long` 函数**： ```python workschool = pd.wide_to_long(nls97[['originalid'] + weeksworkedcols + colenrcols], stubnames=['weeksworked', 'colenroct'], i=['originalid'], j='year').reset_index() workschool['year'] = workschool.year + 2000 workschool = workschool.sort_values(['originalid', 'year']) workschool.set_index(['originalid'], inplace=True) workschool.loc[[2, 3]] ``` ##### 1.3 使用 `unstack` 和 `pivot` 将数据从长格式转换回宽格式有时，我们需要将数据从整齐的结构转换为不整齐的结构，`unstack` 和 `pivot` 可以帮助我们将数据从长格式转换为宽格式。操作步骤如下： 1. **导入 pandas 并加载数据**： ```python import pandas as pd nls97 = pd.read_csv("data/nls97g.csv", low_memory=False) nls97.set_index(['originalid'], inplace=True) ``` 2. **再次堆叠数据**： ```python weeksworkedcols = ['weeksworked17', 'weeksworked18', 'weeksworked19', 'weeksworked20', 'weeksworked21'] weeksworkedstacked = nls97[weeksworkedcols].stack() weeksworkedstacked.loc[[2, 3]] ``` 3. **再次融化数据**： ```python weeksworkedmelted = nls97.reset_index().loc[:, ['originalid'] + weeksworkedcols].melt(id_vars=['originalid'], value_vars=weeksworkedcols, var_name='year', value_name='weeksworked') weeksworkedmelted.loc[weeksworkedmelted.originalid.isin([2, 3])].sort_values(['originalid', 'year']) ``` 4. **使用 `unstack` 将堆叠数据从长格式转换为宽格式**： ```python weeksworked = weeksworkedstacked.unstack() weeksworked.loc[[2, 3]].T ``` 5. **使用 `pivot` 将融化数据从长格式转换为宽格式**： ```python weeksworked = weeksworkedmelted.pivot(index='originalid', columns='year', values=['weekswo ```

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据整理与重塑及自动化数据清洗

相关推荐

专栏目录

数据整理与重塑及自动化数据清洗

相关推荐

Python源码-Pandas数据处理-如何处理数据表的长宽转换.zip

数据处理Pandas-如何处理数据表的长宽转换-Python实例源码.zip

Python示例源码-Pandas数据处理-读取Excel、文本、CSV等不同类型数据-大作业.zip

整理Coursera项目数据：使用R脚本自动化流程

数据获取与清洗：综合实验数据整理与分析

【Python数据处理自动化】：提高酒店评价数据整理的效率

【Python科学计算入门】Pandas数据处理：读取与写入数据、缺失值处理、数据合并与重塑

【Stata数据合并与重塑：让复杂数据集井然有序】：掌握这些技巧，数据整合不再难

【Power Query高级技】：2小时精通数据筛选与重塑

高级Python和SAS数据处理：数据合并和重塑

目标检测旋转增强源码带方向

数学建模竞赛LaTeX模板项目_提供完整数学建模论文排版解决方案_包含常用数学符号命令环境配置与美化学术图表生成功能_适用于MathorCup等各类数学建模竞赛论文撰写与格式规范化.zip

专栏目录

最新推荐

数据处理与非关系型数据库应用指南

时间序列、因果关系与文本挖掘：从理论到实践

深入理解块层I/O处理与调度及SCSI子系统

Vim与Source命令的高效使用指南

利用Terraform打造完美AWS基础设施

PHP编程基础与常用操作详解

打造零食推送机器人：从代码实现到硬件采购指南

VisualStudioCode与Git的源代码控制

Linux终端实用工具与技巧

x64指令集部分指令详解