使用Kedro构建数据处理流水线教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00158/article/details/148415850

使用Kedro构建数据处理流水线教程

前言

Kedro是一个优秀的Python框架，专门为数据科学和机器学习项目设计，帮助开发者构建可维护、可复用的数据流水线。本文将详细介绍如何使用Kedro创建数据处理流水线，适合有一定Python基础但刚接触Kedro的开发者。

数据处理流水线概述

数据处理流水线是数据科学项目中至关重要的环节，它负责将原始数据转换为适合建模的格式。在Kedro项目中，数据处理流水线通常包含以下组件：

节点(Node)：执行特定数据处理功能的Python函数
流水线(Pipeline)：将多个节点按依赖关系连接起来
数据目录(Data Catalog)：管理输入输出数据集
参数文件：存储流水线运行时的配置参数

创建数据处理节点

预处理公司数据

首先我们需要创建一个预处理公司数据的节点函数。这个函数将处理原始公司数据，进行类型转换等操作：

def preprocess_companies(companies: pd.DataFrame) -> pd.DataFrame:
    """预处理公司数据
    
    参数:
        companies: 原始公司数据
    返回:
        预处理后的数据，包含转换为浮点型的company_rating和布尔型的iata_approved
    """
    companies["iata_approved"] = _is_true(companies["iata_approved"])
    companies["company_rating"] = _parse_percentage(companies["company_rating"])
    return companies

其中用到的辅助函数包括：

_is_true(): 将"t"/"f"字符串转换为布尔值
_parse_percentage(): 处理百分比字符串

预处理航天飞机数据

类似地，我们创建处理航天飞机数据的节点函数：

def preprocess_shuttles(shuttles: pd.DataFrame) -> pd.DataFrame:
    """预处理航天飞机数据
    
    参数:
        shuttles: 原始航天飞机数据
    返回:
        预处理后的数据，包含转换为浮点型的price和布尔型的检查状态字段
    """
    shuttles["d_check_complete"] = _is_true(shuttles["d_check_complete"])
    shuttles["moon_clearance_complete"] = _is_true(shuttles["moon_clearance_complete"])
    shuttles["price"] = _parse_money(shuttles["price"])
    return shuttles

构建数据处理流水线

在Kedro中，流水线是通过将节点连接起来构建的。我们创建一个流水线文件来组织这些节点：

from kedro.pipeline import Pipeline, node, pipeline
from .nodes import preprocess_companies, preprocess_shuttles

def create_pipeline(**kwargs) -> Pipeline:
    return pipeline(
        [
            node(
                func=preprocess_companies,
                inputs="companies",
                outputs="preprocessed_companies",
                name="preprocess_companies_node",
            ),
            node(
                func=preprocess_shuttles,
                inputs="shuttles",
                outputs="preprocessed_shuttles",
                name="preprocess_shuttles_node",
            )
        ]
    )

每个节点需要指定：

func: 要执行的Python函数
inputs: 输入数据集名称(对应数据目录中的定义)
outputs: 输出数据集名称
name: 节点唯一标识符

运行和测试流水线

运行单个节点

可以单独测试预处理公司数据的节点：

kedro run --nodes=preprocess_companies_node

运行完整流水线

运行整个数据处理流水线：

kedro run

运行指定节点组合

也可以选择性地运行多个节点：

kedro run --nodes=preprocess_companies_node,preprocess_shuttles_node

数据持久化配置

为了让Kedro保存处理后的数据，需要在数据目录中注册输出数据集：

preprocessed_companies:
  type: pandas.ParquetDataset
  filepath: data/02_intermediate/preprocessed_companies.pq

preprocessed_shuttles:
  type: pandas.ParquetDataset
  filepath: data/02_intermediate/preprocessed_shuttles.pq

如果不配置这些，Kedro会使用MemoryDataset在内存中临时存储数据，处理完成后自动释放。

创建模型输入表

完成基础预处理后，我们需要将多个数据集合并为模型输入表：

def create_model_input_table(shuttles, companies, reviews):
    """合并所有数据创建模型输入表
    
    参数:
        shuttles: 预处理后的航天飞机数据
        companies: 预处理后的公司数据
        reviews: 原始评价数据
    返回:
        合并后的模型输入表
    """
    rated_shuttles = shuttles.merge(reviews, left_on="id", right_on="shuttle_id")
    rated_shuttles = rated_shuttles.drop("id", axis=1)
    model_input_table = rated_shuttles.merge(companies, left_on="company_id", right_on="id")
    return model_input_table.dropna()

然后将此节点加入流水线：

node(
    func=create_model_input_table,
    inputs=["preprocessed_shuttles", "preprocessed_companies", "reviews"],
    outputs="model_input_table",
    name="create_model_input_table_node",
)

同样需要在数据目录中注册输出：

model_input_table:
  type: pandas.ParquetDataset
  filepath: data/03_primary/model_input_table.pq

项目可视化

Kedro-Viz是一个强大的可视化工具，可以直观展示项目结构：

安装Kedro-Viz：

pip install kedro-viz

启动可视化界面：

kedro viz run

这将自动在浏览器中打开可视化页面，展示节点依赖关系、数据流等信息。

总结

通过本教程，我们学习了：

如何创建Kedro节点封装数据处理逻辑
如何构建包含多个节点的数据处理流水线
如何配置数据目录实现数据持久化
如何运行和测试流水线
如何使用Kedro-Viz可视化项目结构

这些是使用Kedro构建数据科学项目的基础知识。掌握了这些内容后，可以继续学习如何构建机器学习模型流水线，这将是我们下一篇教程的内容。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考