7. 数据规整:聚合、合并、重塑和分组
文章目录
-
7. 数据规整:聚合、合并、重塑和分组 - 数据规整:聚合、合并、重塑和分组
数据规整:聚合、合并、重塑和分组
在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。
1. 层次化索引
层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低维度形式处理高维度数据。我们先来看一个简单的例子:创建一个Series,并用一个由列表或数组组成的列表作为索引:
import pandas as pd
import numpy as np
data = pd.Series(np.random.randn(9),index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
[1, 2, 3, 1, 3, 1, 2, 2, 3]])
data
a 1 -0.290839
2 2.304109
3 1.634541
b 1 0.580154
3 0.467801
c 1 1.839985
2 -0.609232
d 2 -0.268056
3 -0.946874
dtype: float64
看到的结果是经过美化的带有MultiIndex索引的Series的格式。索引之间的“间隔”表示“直接使用上面的标签”:
data.index
-----------------------------------------------------------------------------
MultiIndex([('a', 1),
('a', 2),
('a', 3),
('b', 1),
('b', 3),
('c', 1),
('c', 2),
('d', 2),
('d', 3)],
)
对于一个层次化索引的对象,可以使用所谓的部分索引,使用它选取数据子集的操作更简单:
MultiIndex([('a', 1),
('a', 2),
('a', 3),
('b', 1),
('b', 3),
('c', 1),
('c', 2),
('d', 2),
('d', 3)],
)
data['b']
-----------------------------------------------------------------------------
1 0.580154
3 0.467801
dtype: float64
data['b':'c']
-----------------------------------------------------------------------------
b 1 0.580154
3 0.467801
c 1 1.839985
2 -0.609232
dtype: float64
data.loc[['b','d']]
-----------------------------------------------------------------------------
b 1 0.580154
3 0.467801
d 2 -0.268056
3 -0.946874
dtype: float64
有时甚至还可以在“内层”中进行选取:
data.loc[:,2]
a 2.304109
c -0.609232
d -0.268056
dtype: float64
层次化索引在数据重塑和基于分组的操作(如透视表生成)中扮演着重要的角色。例如,可以通过unstack
方法将这段数据重新安排到一个DataFrame中:
data