Pandas中resample方法详解_resample函数Python资源-CSDN下载

版权申诉

159 浏览量 2020-09-19 04:20:57 上传评论收藏 48KB PDF 举报

### Pandas中resample方法详解 #### 一、概述 `resample` 是 Pandas 库中用于处理时间序列数据的重要方法之一。该方法能够帮助我们实现时间序列数据的重新采样与频率转换，这对于数据分析而言极为关键。通过 `resample` 方法，我们可以将不规则时间间隔的数据转换为规则时间间隔的数据，或者改变数据的时间分辨率。 #### 二、方法格式与参数详解 `resample` 方法的基本格式如下： ```python DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0) ``` ##### 参数说明： 1. **rule**：重采样的频率规则。例如 `'M'` 表示每月频率，`'5min'` 表示每五分钟一次，`Second(15)` 表示每15秒一次。 2. **how**：聚合操作的方法，默认为 `'mean'`。可以是如 `'mean'`、`'ohlc'`（open-high-low-close）、`np.max` 等任何合法的聚合函数。 3. **axis**：指定操作的轴，默认为 0，即按行操作；若为 1，则按列操作。 4. **fill_method**：升采样时的填充方法，默认为 `None`。常用的方法包括 `'ffill'`（前向填充）和 `'bfill'`（后向填充）。 5. **closed**：在降采样时，指定时间间隔的闭合端，默认为 `'right'`。可以选择 `'left'` 或 `'right'` 来确定区间闭合端。 6. **label**：在降采样时，聚合值的标签，默认为 `'right'`。可以选择 `'left'` 或 `'right'` 来决定使用区间的左端还是右端作为标签。 7. **loffset**：标签偏移量，如 `'1s'` 或 `Second(-1)` 可以用于调整聚合标签的时间位置。 8. **limit**：向前或向后填充的最大周期数，默认为 `None`。 9. **kind**：聚合后的索引类型，默认为 `None`，即保持原样。可选 `'period'`（周期）或 `'timestamp'`（时间戳）。 10. **convention**：当从低频转换到高频时，指定使用的约定，默认为 `'end'`。可以选择 `'start'` 或 `'end'`。 #### 三、示例解析下面通过一系列具体的例子来进一步理解 `resample` 方法的应用场景。 **创建一个 Series** ```python import pandas as pd index = pd.date_range('1/1/2000', periods=9, freq='T') # 创建一个时间索引 series = pd.Series(range(9), index=index) # 创建一个 Series 对象 print(series) ``` 输出结果： ``` 2000-01-01 00:00:00 0 2000-01-01 00:01:00 1 2000-01-01 00:02:00 2 2000-01-01 00:03:00 3 2000-01-01 00:04:00 4 2000-01-01 00:05:00 5 2000-01-01 00:06:00 6 2000-01-01 00:07:00 7 2000-01-01 00:08:00 8 Freq: T, dtype: int64 ``` **降低采样频率到三分钟** ```python result = series.resample('3T').sum() print(result) ``` 输出结果： ``` 2000-01-01 00:00:00 3 2000-01-01 00:03:00 12 2000-01-01 00:06:00 21 Freq: 3T, dtype: int64 ``` **降低采样频率到三分钟，标签使用 right 替代 left** ```python result = series.resample('3T', label='right').sum() print(result) ``` 输出结果： ``` 2000-01-01 00:03:00 3 2000-01-01 00:06:00 12 2000-01-01 00:09:00 21 Freq: 3T, dtype: int64 ``` **降低采样频率到三分钟，但闭合区间为 right** ```python result = series.resample('3T', label='right', closed='right').sum() print(result) ``` 输出结果： ``` 2000-01-01 00:00:00 0 2000-01-01 00:03:00 6 2000-01-01 00:06:00 15 2000-01-01 00:09:00 15 Freq: 3T, dtype: int64 ``` **提高采样频率到 30 秒** ```python result = series.resample('30S').asfreq()[0:5] print(result) ``` 输出结果： ``` 2000-01-01 00:00:00 0.0 2000-01-01 00:00:30 NaN 2000-01-01 00:01:00 1.0 2000-01-01 00:01:30 NaN 2000-01-01 00:02:00 2.0 Freq: 30S, dtype: float64 ``` **提高采样频率到 30 秒并使用 pad 方法填充 NaN 值** ```python result = series.resample('30S').pad()[0:5] print(result) ``` 输出结果： ``` 2000-01-01 00:00:00 0 2000-01-01 00:00:30 0 2000-01-01 00:01:00 1 2000-01-01 00:01:30 1 2000-01-01 00:02:00 2 Freq: 30S, dtype: int64 ``` #### 四、应用场景 1. **时间序列数据清洗**：对于不规则的时间序列数据，可以通过 `resample` 方法将其转换为固定频率的数据，方便后续分析。 2. **数据汇总**：可以利用 `resample` 结合不同的 `how` 参数进行数据汇总，如计算日均值、月均值等。 3. **数据插值**：对于缺失数据，可以通过升采样后填充数据的方式来进行插值处理。 4. **交易数据处理**：金融领域中，股票、期货等交易数据通常采用 `resample` 进行汇总统计，如计算每分钟成交量、最高价、最低价等。 `resample` 方法是 Pandas 处理时间序列数据不可或缺的功能之一，灵活运用它可以极大地提升数据处理效率和分析能力。无论是初学者还是资深开发者，在进行时间序列数据分析时都应该熟练掌握这一方法。

资源详情

资源评论

资源推荐

Pandas中中resample方法详解方法详解

主要介绍了Pandas中resample方法详解，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的

参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的

方法。

方法的格式是：

DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind=None, loffset=None, limit=None, base=0)

参数详解是：

参数参数说明说明

freq 表示重采样频率，例如‘M'、‘5min'，Second(15)

how='mean'

用于产生聚合值的函数名或数组函数，例如‘mean'、‘ohlc'、np.max等，默认

是‘mean'，其他常用的值由：‘first'、‘last'、‘median'、‘max'、‘min'

axis=0 默认是纵轴，横轴设置axis=1

fill_method

= None

升采样时如何插值，比如‘ffill'、‘bfill'等

closed =

‘right'

在降采样时，各时间段的哪一段是闭合的，‘right'或‘left'，默认‘right'

label= ‘right'

在降采样时，如何设置聚合值的标签，例如，9：30-9：35会被标记成9：30还

是9：35,默认9：35

loffset =

None

面元标签的时间校正值，比如‘-1s'或Second(-1)用于将聚合标签调早1秒

limit=None 在向前或向后填充时，允许填充的最大时期数

kind =

None

聚合到时期（‘period'）或时间戳（‘timestamp'），默认聚合到时间序列的索引类

型

convention

= None

当重采样时期时，将低频率转换到高频率所采用的约定（start或end）。默

认‘end'

首先创建一个Series，采样频率为一分钟。

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')

>>> series = pd.Series(range(9), index=index)

>>> series

2000-01-01 00:00:00 0

2000-01-01 00:01:00 1

2000-01-01 00:02:00 2

2000-01-01 00:03:00 3

2000-01-01 00:04:00 4

2000-01-01 00:05:00 5

2000-01-01 00:06:00 6

2000-01-01 00:07:00 7

2000-01-01 00:08:00 8

Freq: T, dtype: int64

降低采样频率为三分钟

>>> series.resample('3T').sum()

2000-01-01 00:00:00 3

2000-01-01 00:03:00 12

2000-01-01 00:06:00 21

Freq: 3T, dtype: int64

降低采样频率为三分钟，但是每个标签使用right来代替left。请注意，bucket中值的用作标签。

>>> series.resample('3T', label='right').sum()

2000-01-01 00:03:00 3

2000-01-01 00:06:00 12

2000-01-01 00:09:00 21

Freq: 3T, dtype: int64

降低采样频率为三分钟，但是关闭right区间。

>>> series.resample('3T', label='right', closed='right').sum()

2000-01-01 00:00:00 0

2000-01-01 00:03:00 6

2000-01-01 00:06:00 15

2000-01-01 00:09:00 15

Freq: 3T, dtype: int64

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

版权申诉

weixin_38677227

粉丝: 4

Pandas中resample方法详解

评论0

最新资源

Pandas中resample方法详解

评论0

pandas的resample重采样的使用

pandas基本使用方法示例

Pandas时间序列重采样(resample)方法中closed、label的作用详解

pandas-resample按时间聚合实例

python中resample函数实现重采样和降采样代码

Pandas —— resample()重采样和asfreq()频度转换方式

resample 源代码

resample函数的C语言实现

数据处理Pandas-按日期统计并显示数据(resample()方法)-Python实例源码.zip

详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法

pandas中文教程下载

pandas 空数据处理方法详解

Pandas中文文档，欢迎贡献！.zip

pandas库文档

pandas学习资料

Pandas面试题.pdf

23.时间序列金融数据预测及Pandas库详解1

pandas-2.1.4.tar.gz

Pandas介绍123.zip

pandas-0.17.0.zip

pandas-1.3.4.tar.gz

pandas-1.1.2.tar.gz

pandas-1.2.5.tar.gz

pandas-1.1.1.tar.gz

pandas cookbook

876.链表的中间结点

概念建模与FAIR数据：ER 2019研讨会精华

最新资源