使用Kedro构建数据处理流水线教程

使用Kedro构建数据处理流水线教程

前言

Kedro是一个优秀的Python框架,专门为数据科学和机器学习项目设计,帮助开发者构建可维护、可复用的数据流水线。本文将详细介绍如何使用Kedro创建数据处理流水线,适合有一定Python基础但刚接触Kedro的开发者。

数据处理流水线概述

数据处理流水线是数据科学项目中至关重要的环节,它负责将原始数据转换为适合建模的格式。在Kedro项目中,数据处理流水线通常包含以下组件:

  1. 节点(Node):执行特定数据处理功能的Python函数
  2. 流水线(Pipeline):将多个节点按依赖关系连接起来
  3. 数据目录(Data Catalog):管理输入输出数据集
  4. 参数文件:存储流水线运行时的配置参数

创建数据处理节点

预处理公司数据

首先我们需要创建一个预处理公司数据的节点函数。这个函数将处理原始公司数据,进行类型转换等操作:

def preprocess_companies(companies: pd.DataFrame) -> pd.DataFrame:
    """预处理公司数据
    
    参数:
        companies: 原始公司数据
    返回:
        预处理后的数据,包含转换为浮点型的company_rating和布尔型的iata_approved
    """
    companies["iata_approved"] = _is_true(companies["iata_approved"])
    companies["company_rating"] = _parse_percentage(companies["company_rating"])
    return companies

其中用到的辅助函数包括:

  • _is_true(): 将"t"/"f"字符串转换为布尔值
  • _parse_percentage(): 处理百分比字符串

预处理航天飞机数据

类似地,我们创建处理航天飞机数据的节点函数:

def preprocess_shuttles(shuttles: pd.DataFrame) -> pd.DataFrame:
    """预处理航天飞机数据
    
    参数:
        shuttles: 原始航天飞机数据
    返回:
        预处理后的数据,包含转换为浮点型的price和布尔型的检查状态字段
    """
    shuttles["d_check_complete"] = _is_true(shuttles["d_check_complete"])
    shuttles["moon_clearance_complete"] = _is_true(shuttles["moon_clearance_complete"])
    shuttles["price"] = _parse_money(shuttles["price"])
    return shuttles

构建数据处理流水线

在Kedro中,流水线是通过将节点连接起来构建的。我们创建一个流水线文件来组织这些节点:

from kedro.pipeline import Pipeline, node, pipeline
from .nodes import preprocess_companies, preprocess_shuttles

def create_pipeline(**kwargs) -> Pipeline:
    return pipeline(
        [
            node(
                func=preprocess_companies,
                inputs="companies",
                outputs="preprocessed_companies",
                name="preprocess_companies_node",
            ),
            node(
                func=preprocess_shuttles,
                inputs="shuttles",
                outputs="preprocessed_shuttles",
                name="preprocess_shuttles_node",
            )
        ]
    )

每个节点需要指定:

  • func: 要执行的Python函数
  • inputs: 输入数据集名称(对应数据目录中的定义)
  • outputs: 输出数据集名称
  • name: 节点唯一标识符

运行和测试流水线

运行单个节点

可以单独测试预处理公司数据的节点:

kedro run --nodes=preprocess_companies_node

运行完整流水线

运行整个数据处理流水线:

kedro run

运行指定节点组合

也可以选择性地运行多个节点:

kedro run --nodes=preprocess_companies_node,preprocess_shuttles_node

数据持久化配置

为了让Kedro保存处理后的数据,需要在数据目录中注册输出数据集:

preprocessed_companies:
  type: pandas.ParquetDataset
  filepath: data/02_intermediate/preprocessed_companies.pq

preprocessed_shuttles:
  type: pandas.ParquetDataset
  filepath: data/02_intermediate/preprocessed_shuttles.pq

如果不配置这些,Kedro会使用MemoryDataset在内存中临时存储数据,处理完成后自动释放。

创建模型输入表

完成基础预处理后,我们需要将多个数据集合并为模型输入表:

def create_model_input_table(shuttles, companies, reviews):
    """合并所有数据创建模型输入表
    
    参数:
        shuttles: 预处理后的航天飞机数据
        companies: 预处理后的公司数据
        reviews: 原始评价数据
    返回:
        合并后的模型输入表
    """
    rated_shuttles = shuttles.merge(reviews, left_on="id", right_on="shuttle_id")
    rated_shuttles = rated_shuttles.drop("id", axis=1)
    model_input_table = rated_shuttles.merge(companies, left_on="company_id", right_on="id")
    return model_input_table.dropna()

然后将此节点加入流水线:

node(
    func=create_model_input_table,
    inputs=["preprocessed_shuttles", "preprocessed_companies", "reviews"],
    outputs="model_input_table",
    name="create_model_input_table_node",
)

同样需要在数据目录中注册输出:

model_input_table:
  type: pandas.ParquetDataset
  filepath: data/03_primary/model_input_table.pq

项目可视化

Kedro-Viz是一个强大的可视化工具,可以直观展示项目结构:

  1. 安装Kedro-Viz:
pip install kedro-viz
  1. 启动可视化界面:
kedro viz run

这将自动在浏览器中打开可视化页面,展示节点依赖关系、数据流等信息。

总结

通过本教程,我们学习了:

  1. 如何创建Kedro节点封装数据处理逻辑
  2. 如何构建包含多个节点的数据处理流水线
  3. 如何配置数据目录实现数据持久化
  4. 如何运行和测试流水线
  5. 如何使用Kedro-Viz可视化项目结构

这些是使用Kedro构建数据科学项目的基础知识。掌握了这些内容后,可以继续学习如何构建机器学习模型流水线,这将是我们下一篇教程的内容。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蒋荔卿Lorelei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值