Pandas使用教程 - 数据类型转换与操作

闲人编程

已于 2025-02-18 19:33:09 修改

阅读量942

点赞数 24

CC 4.0 BY-SA版权

分类专栏： Pandas使用教程文章标签： pandas 数据类型转换 datetime int float 内存优化

于 2025-02-10 07:30:00 首次发布

本文链接：https://blog.csdn.net/qq_42568323/article/details/145481785

Pandas使用教程专栏收录该内容

67 篇文章

订阅专栏

基础篇8：数据类型转换与操作

1. 引言

在数据分析过程中，不同数据类型之间的转换是一个常见且关键的操作。无论是在数据预处理阶段，还是在后续的建模、统计计算中，正确的数据类型不仅能够保证计算结果的准确性，还能显著影响内存占用和运算速度。例如，将整型数据从默认的 int64 转换为 int8 或 int16，可以大幅降低内存使用；将字符串列转换为 category 类型，则能提升数据处理的效率；日期和时间数据则需要转换为 Pandas 的 datetime 类型，便于后续的时间序列操作。本文将详细介绍 Pandas 中的数据类型转换方法、操作技巧以及常见问题的解决方案。

2. 数据类型转换的重要性

在实际项目中，经常会遇到以下情况：

内存优化：对于大数据集，默认数据类型往往会导致不必要的内存浪费。比如，一个存储年龄的列，取值范围通常在 0 到 120 之间，使用 int64 显然浪费内存，改为 int8 或 int16 更为合适。
数据一致性：数据源可能来自不同的渠道，数据类型不统一，转换后才能进行统一处理。
运算效率：某些数据类型在计算时效率更高，例如浮点数 float32 的运算速度可能优于 float64，而且在精度要求不高的情况下可以使用较低精度的类型。
便于后续操作：例如，日期字符串需要转换为 datetime 类型，以便进行日期加减、排序和时间窗口分析。

数学上，我们可以将数据集看作一个矩阵 $D$ ，其中每一列的数据类型决定了该列数据的存储格式和运算规则。数据类型转换的操作可以表示为
$\text{目标数据类型})$
其中 $f$ 表示转换函数， $D^{'}$ 为转换后的数据矩阵。正确地进行数据类型转换，不仅有助于内存优化，还能确保后续数据操作的准确性和高效性。

3. 常用数据类型转换方法

Pandas 提供了多种数据类型转换方法，下面我们依次介绍常用的方法和使用场景。

3.1 使用 `astype` 方法转换数据类型

astype 方法是 Pandas 中最常用的类型转换函数。它可以将 Series 或 DataFrame 中的数据转换为指定的数据类型。

3.1.1 数值类型转换

例如，将默认的 int64 转换为 int16，将 float64 转换为 float32：

import pandas as pd
import numpy as np

# 构造示例 DataFrame
df = pd.DataFrame({
    "年龄": np.random.randint(0, 100, size=1000000),
    "收入": np.random.uniform(1000, 10000, size=1000000)
})

# 查看原始数据类型
print("原始数据类型：")
print(df.dtypes)

# 将年龄转换为 int16，收入转换为 float32
df["年龄"] = df["年龄"].astype("int16")
df["收入"] = df["收入"].astype("float32")

print("\n转换后的数据类型：")
print(df.dtypes)

通过上述操作，可以减少内存占用，提高运算速度。注意，在转换前应确认目标数据类型的取值范围是否满足要求。

3.1.2 字符串与分类数据

对于重复率较高的字符串列，可以将其转换为 category 类型，从而减少内存消耗并提升运算效率：

# 构造示例数据：部门列只有少量类别
df["部门"] = np.random.choice(["销售", "技术", "人事", "财务"], size=1000000)

# 查看转换前的内存占用
print("\n转换前的 '部门' 列类型：", df["部门"].dtype)

# 转换为 category 类型
df["部门"] = df["部门"].astype("category")
print("转换后的 '部门' 列类型：", df["部门"].dtype)

使用 category 类型后，内部存储变为整数索引，内存占用大大减少。

3.1.3 对象类型转换

有时候数据会以 Python 的 object 类型存在，例如数值列可能以字符串形式存储。此时可以使用 astype 方法将其转换为数值类型：

# 示例：将存储为字符串的数字转换为数值类型
df_obj = pd.DataFrame({
    "销售额": ["1000", "2000", "3000", "4000"]
})
print("转换前数据类型：", df_obj.dtypes)

# 转换为整数类型
df_obj["销售额"] = df_obj["销售额"].astype(int)
print("转换后数据类型：", df_obj.dtypes)

这种转换有助于后续进行数学运算和统计分析。

3.2 使用 `pd.to_numeric` 转换数值

pd.to_numeric 方法专门用于将 Series 转换为数值型，它比 astype 更加灵活，可以处理错误值。

3.2.1 错误处理参数

pd.to_numeric 允许设置参数 errors，其取值可以为 'raise'（默认）、'coerce' 或 'ignore'。例如：

s = pd.Series(["100", "200", "ABC", "400"])
# 使用 'coerce' 参数，将无法转换的值转换为 NaN
s_numeric = pd.to_numeric(s, errors='coerce')
print(s_numeric)

输出结果将为：

0    100.0
1    200.0
2      NaN
3    400.0
dtype: float64

这种方式对于数据中存在异常值的场景非常有用。

3.3 日期和时间类型转换

处理时间序列数据时，通常需要将日期字符串转换为 datetime 类型。Pandas 提供了 pd.to_datetime 方法，支持灵活的日期格式转换。

3.3.1 基本用法

# 示例数据：日期字符串
date_series = pd.Series(["2025-01-01", "2025/02/01", "01-03-2025"])
# 转换为 datetime 类型
dates = pd.to_datetime(date_series, errors='coerce')
print(dates)

对于格式不统一的数据，pd.to_datetime 能够自动推断格式，并将无法解析的值设置为 NaT（Not a Time）。

3.3.2 转换时间间隔

类似地，Pandas 还提供了 pd.to_timedelta 方法，用于将时间间隔字符串转换为 Timedelta 类型：

# 示例数据：时间间隔字符串
td_series = pd.Series(["1 days", "2 days 03:04:05", "0 days 12:00:00"])
td = pd.to_timedelta(td_series)
print(td)

这种转换有助于对时间数据进行加减、统计等操作。

3.4 转换为布尔类型

对于只有两种取值的列，可以转换为布尔类型，从而提高内存使用效率及运算速度。常见的场景有性别、是否合格等标识。

# 示例数据：合格与不合格
df_bool = pd.DataFrame({
    "合格情况": ["合格", "不合格", "合格", "合格", "不合格"]
})
# 使用 map 方法转换为布尔类型
df_bool["合格情况"] = df_bool["合格情况"].map({"合格": True, "不合格": False})
print(df_bool)
print("数据类型：", df_bool.dtypes)

通过布尔类型转换，不仅使得数据更易于理解，还能在进行逻辑判断时提高效率。

3.5 使用 `convert_dtypes` 自动推断类型

在 Pandas 1.0 及以上版本中，convert_dtypes 方法能够根据数据内容自动转换为更合适的数据类型，如将 object 类型转换为 string 或 nullable 的整型、布尔型等。

# 示例：构造一个混合类型的 DataFrame
df_mixed = pd.DataFrame({
    "A": [1, 2, 3, None],
    "B": ["a", "b", None, "d"],
    "C": [True, None, False, True]
})

# 查看原始数据类型
print("原始数据类型：")
print(df_mixed.dtypes)

# 自动转换数据类型
df_converted = df_mixed.convert_dtypes()
print("\n转换后的数据类型：")
print(df_converted.dtypes)

convert_dtypes 会将数值列保持为数值类型，将字符串列转换为 string 类型，并对缺失值进行合理处理，适用于初步数据探索和数据清洗。

4. 数据类型操作的高级技巧

4.1 数学运算与数据类型

数据类型直接影响数学运算的结果和效率。举例来说，计算均值时使用低精度数据（如 float32）的速度往往高于 float64，但精度可能有所牺牲。数学上，均值公式为
$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$
在进行大量计算时，应权衡精度与速度，选择合适的数据类型。

4.2 使用 `infer_objects` 自动推断对象类型

如果 DataFrame 的某些列数据类型为 object，但实际存储的是数值信息，可以使用 infer_objects 方法尝试推断更精确的数据类型：

# 构造示例 DataFrame，部分列为 object 类型
df_obj = pd.DataFrame({
    "数值": ["1", "2", "3", "4"],
    "文本": ["a", "b", "c", "d"]
})
print("转换前的数据类型：")
print(df_obj.dtypes)

# 自动推断数据类型
df_obj = df_obj.infer_objects()
print("\n转换后的数据类型：")
print(df_obj.dtypes)

该方法会将可以推断为数值或布尔类型的 object 列转换为相应的数据类型。

4.3 自定义数据类型转换函数

在实际项目中，有时需要对数据进行复杂的类型转换，例如转换过程中需要处理特殊字符或格式。此时可以自定义转换函数，并结合 apply 方法进行转换。

def convert_custom(val):
    """
    自定义转换函数，将可能含有逗号的数字字符串转换为浮点数。
    例如："1,234.56" 转换为 1234.56
    """
    try:
        # 去除逗号并转换为浮点数
        return float(val.replace(",", ""))
    except Exception:
        return np.nan

# 构造示例数据
df_custom = pd.DataFrame({
    "金额": ["1,234.56", "2,345.67", "无效数据", "3,456.78"]
})
df_custom["金额"] = df_custom["金额"].apply(convert_custom)
print(df_custom)

通过自定义函数，可以针对具体数据格式进行灵活处理，确保转换后的数据符合要求。

5. 数据类型转换的实践场景

5.1 内存优化与计算速度

在大数据集上，合理的数据类型转换可以显著降低内存占用并提高计算速度。例如，在处理百万级数据时，将不必要的 int64 转换为 int16，以及将字符串列转换为 category 类型，往往能将内存占用降低数倍。

5.2 时间序列数据处理

对于时间序列数据，使用 pd.to_datetime 和 pd.to_timedelta 进行转换，是后续日期排序、时间窗口计算、时间差分析等操作的前提。正确的时间数据类型能够让日期加减、重采样等操作变得简单而高效。

5.3 数据预处理与清洗

在数据清洗阶段，经常需要对混合型数据进行类型统一，如将部分对象类型转换为数值类型或字符串类型。利用 convert_dtypes 与 infer_objects 能够自动识别数据类型，降低手动转换的工作量，同时减少数据错误的风险。

6. UML 类图示意

下面使用 Mermaid UML 类图展示 DataFrame 与数据类型转换相关的部分接口关系，帮助理解 Pandas 内部如何对数据类型进行管理：

该图简单描述了 DataFrame 中进行数据类型转换的常用方法，展示了如何利用 astype、convert_dtypes、infer_objects 等方法完成数据转换。

7. 总结

数据类型转换是 Pandas 数据处理中的基础环节，其正确与否直接影响到后续的数据清洗、运算、统计和模型构建。本文主要介绍了以下几点内容：

数据类型转换的重要性
- 内存优化：降低内存占用，提升计算效率
- 数据一致性：确保来自不同数据源的数据类型统一
- 运算效率：选择合适的数据类型提高运算速度
常用转换方法
- 使用 astype 转换数值、字符串、布尔类型等
- 使用 pd.to_numeric 进行灵活的数值转换，并处理错误值
- 使用 pd.to_datetime 和 pd.to_timedelta 转换日期、时间数据
- 利用 category 类型转换重复字符串数据以降低内存消耗
- 使用 convert_dtypes 和 infer_objects 自动推断数据类型
高级转换技巧
- 自定义转换函数处理特殊数据格式
- 注意转换过程中数据精度与速度之间的平衡
- 结合向量化操作与批量处理，提升大规模数据集的转换效率
实践场景与应用
- 内存优化：在大数据集上通过类型转换降低内存占用
- 时间序列数据：正确的日期和时间类型转换为后续操作提供便利
- 数据预处理：确保数据在清洗阶段类型统一，减少错误风险
调试与验证
- 使用 df.dtypes、df.info() 检查转换结果
- 使用单元测试验证自定义转换函数的正确性