使用Kedro构建数据处理流水线教程
前言
Kedro是一个优秀的Python框架,专门为数据科学和机器学习项目设计,帮助开发者构建可维护、可复用的数据流水线。本文将详细介绍如何使用Kedro创建数据处理流水线,适合有一定Python基础但刚接触Kedro的开发者。
数据处理流水线概述
数据处理流水线是数据科学项目中至关重要的环节,它负责将原始数据转换为适合建模的格式。在Kedro项目中,数据处理流水线通常包含以下组件:
- 节点(Node):执行特定数据处理功能的Python函数
- 流水线(Pipeline):将多个节点按依赖关系连接起来
- 数据目录(Data Catalog):管理输入输出数据集
- 参数文件:存储流水线运行时的配置参数
创建数据处理节点
预处理公司数据
首先我们需要创建一个预处理公司数据的节点函数。这个函数将处理原始公司数据,进行类型转换等操作:
def preprocess_companies(companies: pd.DataFrame) -> pd.DataFrame:
"""预处理公司数据
参数:
companies: 原始公司数据
返回:
预处理后的数据,包含转换为浮点型的company_rating和布尔型的iata_approved
"""
companies["iata_approved"] = _is_true(companies["iata_approved"])
companies["company_rating"] = _parse_percentage(companies["company_rating"])
return companies
其中用到的辅助函数包括:
_is_true()
: 将"t"/"f"字符串转换为布尔值_parse_percentage()
: 处理百分比字符串
预处理航天飞机数据
类似地,我们创建处理航天飞机数据的节点函数:
def preprocess_shuttles(shuttles: pd.DataFrame) -> pd.DataFrame:
"""预处理航天飞机数据
参数:
shuttles: 原始航天飞机数据
返回:
预处理后的数据,包含转换为浮点型的price和布尔型的检查状态字段
"""
shuttles["d_check_complete"] = _is_true(shuttles["d_check_complete"])
shuttles["moon_clearance_complete"] = _is_true(shuttles["moon_clearance_complete"])
shuttles["price"] = _parse_money(shuttles["price"])
return shuttles
构建数据处理流水线
在Kedro中,流水线是通过将节点连接起来构建的。我们创建一个流水线文件来组织这些节点:
from kedro.pipeline import Pipeline, node, pipeline
from .nodes import preprocess_companies, preprocess_shuttles
def create_pipeline(**kwargs) -> Pipeline:
return pipeline(
[
node(
func=preprocess_companies,
inputs="companies",
outputs="preprocessed_companies",
name="preprocess_companies_node",
),
node(
func=preprocess_shuttles,
inputs="shuttles",
outputs="preprocessed_shuttles",
name="preprocess_shuttles_node",
)
]
)
每个节点需要指定:
func
: 要执行的Python函数inputs
: 输入数据集名称(对应数据目录中的定义)outputs
: 输出数据集名称name
: 节点唯一标识符
运行和测试流水线
运行单个节点
可以单独测试预处理公司数据的节点:
kedro run --nodes=preprocess_companies_node
运行完整流水线
运行整个数据处理流水线:
kedro run
运行指定节点组合
也可以选择性地运行多个节点:
kedro run --nodes=preprocess_companies_node,preprocess_shuttles_node
数据持久化配置
为了让Kedro保存处理后的数据,需要在数据目录中注册输出数据集:
preprocessed_companies:
type: pandas.ParquetDataset
filepath: data/02_intermediate/preprocessed_companies.pq
preprocessed_shuttles:
type: pandas.ParquetDataset
filepath: data/02_intermediate/preprocessed_shuttles.pq
如果不配置这些,Kedro会使用MemoryDataset在内存中临时存储数据,处理完成后自动释放。
创建模型输入表
完成基础预处理后,我们需要将多个数据集合并为模型输入表:
def create_model_input_table(shuttles, companies, reviews):
"""合并所有数据创建模型输入表
参数:
shuttles: 预处理后的航天飞机数据
companies: 预处理后的公司数据
reviews: 原始评价数据
返回:
合并后的模型输入表
"""
rated_shuttles = shuttles.merge(reviews, left_on="id", right_on="shuttle_id")
rated_shuttles = rated_shuttles.drop("id", axis=1)
model_input_table = rated_shuttles.merge(companies, left_on="company_id", right_on="id")
return model_input_table.dropna()
然后将此节点加入流水线:
node(
func=create_model_input_table,
inputs=["preprocessed_shuttles", "preprocessed_companies", "reviews"],
outputs="model_input_table",
name="create_model_input_table_node",
)
同样需要在数据目录中注册输出:
model_input_table:
type: pandas.ParquetDataset
filepath: data/03_primary/model_input_table.pq
项目可视化
Kedro-Viz是一个强大的可视化工具,可以直观展示项目结构:
- 安装Kedro-Viz:
pip install kedro-viz
- 启动可视化界面:
kedro viz run
这将自动在浏览器中打开可视化页面,展示节点依赖关系、数据流等信息。
总结
通过本教程,我们学习了:
- 如何创建Kedro节点封装数据处理逻辑
- 如何构建包含多个节点的数据处理流水线
- 如何配置数据目录实现数据持久化
- 如何运行和测试流水线
- 如何使用Kedro-Viz可视化项目结构
这些是使用Kedro构建数据科学项目的基础知识。掌握了这些内容后,可以继续学习如何构建机器学习模型流水线,这将是我们下一篇教程的内容。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考