SynapseML回归模型快速入门：汽车价格预测实战-CSDN博客

SynapseML回归模型快速入门：汽车价格预测实战

前言

在机器学习领域，回归分析是预测连续数值型变量的重要技术手段。本文将基于SynapseML这一强大的分布式机器学习库，通过一个汽车价格预测的实际案例，详细介绍回归模型的构建、训练和评估全流程。

数据集介绍

我们使用的数据集包含汽车的各种属性特征，目标是根据这些特征预测汽车的价格。数据集包含以下关键字段：

normalized-losses：标准化损失值
stroke：发动机冲程
bore：发动机孔径
horsepower：马力
peak-rpm：峰值转速
price：价格（目标变量）

数据预处理

1. 数据加载与探索

首先我们需要加载数据并了解其基本统计特征。SynapseML提供了SummarizeData工具，可以快速生成全面的数据统计报告：

from synapse.ml.stages import SummarizeData

summary = SummarizeData().transform(data)
summary.toPandas()

该报告包含每列数据的：

计数统计（总数、唯一值数、缺失值数）
分位数（最小值、第一四分位数、中位数等）
样本统计（方差、标准差、偏度、峰度）
百分位数（P0.5、P1、P5等）

2. 处理缺失值

数据中存在缺失值是常见问题。SynapseML的CleanMissingData模块提供了多种处理方式：

from synapse.ml.featurize import CleanMissingData

cols = ["normalized-losses", "stroke", "bore", "horsepower", "peak-rpm", "price"]
cleanModel = (CleanMissingData()
             .setCleaningMode("Median")
             .setInputCols(cols)
             .setOutputCols(cols))

支持的处理模式包括：

"Mean"：用均值填充
"Median"：用中位数填充（本例采用）
"Custom"：自定义填充值

模型构建与训练

1. 数据分割

首先将数据分为训练集和测试集：

train, test = data.randomSplit([0.6, 0.4], seed=123)

2. 泊松回归模型

泊松回归适用于预测计数型数据，这里我们使用广义线性回归实现：

from pyspark.ml.regression import GeneralizedLinearRegression
from pyspark.ml import Pipeline
from synapse.ml.train import TrainRegressor

glr = GeneralizedLinearRegression(family="poisson", link="log")
poissonModel = TrainRegressor().setModel(glr).setLabelCol("price").setNumFeatures(256)
poissonPipe = Pipeline(stages=[cleanModel, poissonModel]).fit(train)
poissonPrediction = poissonPipe.transform(test)

3. 随机森林回归模型

随机森林是一种集成学习方法，对非线性关系有很好的捕捉能力：

from pyspark.ml.regression import RandomForestRegressor

rfr = RandomForestRegressor(maxDepth=30, maxBins=128, numTrees=8, minInstancesPerNode=1)
randomForestModel = TrainRegressor(model=rfr, labelCol="price", numFeatures=256).fit(train)
randomForestPipe = Pipeline(stages=[cleanModel, randomForestModel]).fit(train)
randomForestPrediction = randomForestPipe.transform(test)

模型评估

1. 整体评估指标

使用ComputeModelStatistics计算关键评估指标：

from synapse.ml.train import ComputeModelStatistics

poissonMetrics = ComputeModelStatistics().transform(poissonPrediction)
randomForestMetrics = ComputeModelStatistics().transform(randomForestPrediction)

主要指标包括：

均方误差(MSE)
均方根误差(RMSE)
R²决定系数
平均绝对误差(MAE)

2. 实例级评估

ComputePerInstanceStatistics可以计算每个预测实例的误差：

from synapse.ml.train import ComputePerInstanceStatistics

def demonstrateEvalPerInstance(pred):
    return (ComputePerInstanceStatistics()
            .transform(pred)
            .select("price", "prediction", "L1_loss", "L2_loss")
            .limit(10)
            .toPandas())