文章大纲
设计机器学习管道
在本节中,我们将介绍如何创建和调整ML管道。作为组织一系列操作以应用于数据的一种方式,管道的概念在许多ML框架中是常见的。
在ML lib中,管道API提供了一个建立在Data Frames之上的高级API来组织机器学习工作流。管道API由一系列变压器和估计器组成,我们将在稍后深入讨论。
在整个本章中,我们将使用来自Inside Airbnb的旧金山住房数据集。
它包含了旧金山Airbnb租赁的信息,如卧室的数量、位置、评论分数等,我们的目标是建立一个模型来预测该城市租赁价格。这是一个回归问题,因为价格是一个连续变量。我们将指导完成数据科学家处理这个问题的工作流程,包括特征工程,
建立模型,超参数调优,并评估模型性能。
这个数据集相当混乱,很难建模(就像大多数真实世界的数据集一样! ),所以如果你自己做实验,你的早期模型不太好,或者出现了各种问题,是很正常的,不要难过。
本小节的目的不是向您展示MLlib中的每个API,而是让您掌握使用MLlib构建端到端管道的技能和知识。在进入细节之前,让我们定义一些MLlib术语:
Transformer 转换器
接受数据帧 Dataframe作为输入,并返回一个新的Dataframe,其中附加一个或多个列。 转换器不从数据中学习任何参数,只需应用基于规则的转换来为模型训练准备数据,或者使用经过训练的MLlib模型生成预测。他们有一种.变换()方法。