SynapseML回归模型快速入门:汽车价格预测实战
前言
在机器学习领域,回归分析是预测连续数值型变量的重要技术手段。本文将基于SynapseML这一强大的分布式机器学习库,通过一个汽车价格预测的实际案例,详细介绍回归模型的构建、训练和评估全流程。
数据集介绍
我们使用的数据集包含汽车的各种属性特征,目标是根据这些特征预测汽车的价格。数据集包含以下关键字段:
- normalized-losses:标准化损失值
- stroke:发动机冲程
- bore:发动机孔径
- horsepower:马力
- peak-rpm:峰值转速
- price:价格(目标变量)
数据预处理
1. 数据加载与探索
首先我们需要加载数据并了解其基本统计特征。SynapseML提供了SummarizeData
工具,可以快速生成全面的数据统计报告:
from synapse.ml.stages import SummarizeData
summary = SummarizeData().transform(data)
summary.toPandas()
该报告包含每列数据的:
- 计数统计(总数、唯一值数、缺失值数)
- 分位数(最小值、第一四分位数、中位数等)
- 样本统计(方差、标准差、偏度、峰度)
- 百分位数(P0.5、P1、P5等)
2. 处理缺失值
数据中存在缺失值是常见问题。SynapseML的CleanMissingData
模块提供了多种处理方式:
from synapse.ml.featurize import CleanMissingData
cols = ["normalized-losses", "stroke", "bore", "horsepower", "peak-rpm", "price"]
cleanModel = (CleanMissingData()
.setCleaningMode("Median")
.setInputCols(cols)
.setOutputCols(cols))
支持的处理模式包括:
- "Mean":用均值填充
- "Median":用中位数填充(本例采用)
- "Custom":自定义填充值
模型构建与训练
1. 数据分割
首先将数据分为训练集和测试集:
train, test = data.randomSplit([0.6, 0.4], seed=123)
2. 泊松回归模型
泊松回归适用于预测计数型数据,这里我们使用广义线性回归实现:
from pyspark.ml.regression import GeneralizedLinearRegression
from pyspark.ml import Pipeline
from synapse.ml.train import TrainRegressor
glr = GeneralizedLinearRegression(family="poisson", link="log")
poissonModel = TrainRegressor().setModel(glr).setLabelCol("price").setNumFeatures(256)
poissonPipe = Pipeline(stages=[cleanModel, poissonModel]).fit(train)
poissonPrediction = poissonPipe.transform(test)
3. 随机森林回归模型
随机森林是一种集成学习方法,对非线性关系有很好的捕捉能力:
from pyspark.ml.regression import RandomForestRegressor
rfr = RandomForestRegressor(maxDepth=30, maxBins=128, numTrees=8, minInstancesPerNode=1)
randomForestModel = TrainRegressor(model=rfr, labelCol="price", numFeatures=256).fit(train)
randomForestPipe = Pipeline(stages=[cleanModel, randomForestModel]).fit(train)
randomForestPrediction = randomForestPipe.transform(test)
模型评估
1. 整体评估指标
使用ComputeModelStatistics
计算关键评估指标:
from synapse.ml.train import ComputeModelStatistics
poissonMetrics = ComputeModelStatistics().transform(poissonPrediction)
randomForestMetrics = ComputeModelStatistics().transform(randomForestPrediction)
主要指标包括:
- 均方误差(MSE)
- 均方根误差(RMSE)
- R²决定系数
- 平均绝对误差(MAE)
2. 实例级评估
ComputePerInstanceStatistics
可以计算每个预测实例的误差:
from synapse.ml.train import ComputePerInstanceStatistics
def demonstrateEvalPerInstance(pred):
return (ComputePerInstanceStatistics()
.transform(pred)
.select("price", "prediction", "L1_loss", "L2_loss")
.limit(10)
.toPandas())
模型选择与优化
在实际应用中,我们可以使用SynapseML的FindBestModel
功能自动寻找最优模型和参数。虽然本例中我们手动比较了两个模型,但在生产环境中,自动化模型选择和调优可以显著提高效率。
总结
通过本教程,我们学习了:
- 使用SynapseML进行数据探索和预处理
- 构建和训练两种不同类型的回归模型
- 评估模型性能并比较结果
- 分析单个预测实例的准确性
SynapseML提供了丰富的机器学习工具链,使得在分布式环境下构建和评估回归模型变得简单高效。读者可以根据实际需求,尝试其他回归算法或调整模型参数,以获得更好的预测性能。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考