“简约而不简单”——线性回归以最朴素的形式(y = wx + b
)揭示了机器学习的核心思想:从数据中学习变量间的关系,并泛化到未知场景。它是监督学习的基石,是理解神经网络、随机森林等复杂模型的起点,更是金融预测、医疗分析等领域的“利器”。
本文将系统拆解线性回归的数学原理、优化方法、扩展技术与实战技巧,用图解和代码让每个概念直观易懂。
一、线性回归的本质:从“身高遗传”到“预测模型”
1.1 定义:寻找变量间的线性关系
线性回归的核心是用输入特征的线性组合预测连续目标值。例如:
- 用房屋面积(
x
)预测房价(y
):y = w×面积 + b
(单变量)。 - 用面积、年限、地段(
x₁, x₂, x₃
)预测房价:y = w₁x₁ + w₂x₂ + w₃x₃ + b
(多变量)。
其向量化表示为:y = WᵀX + b
,其中 W
是权重向量([w₁, w₂, ..., wₙ]
),X
是特征向量([x₁, x₂, ..., xₙ]
),b
是偏置(截距)。
1.2 历史起源:高尔顿的“回归效应”
19世纪,统计学家高尔顿研究亲子身高关系时发现:高个子父母的子女身高会向群体均值“回归”(不会无限增高)。他通过数据拟合出首个线性模型:子女身高 = 0.516×父母身高 + 33.73
,首次揭示了“线性关系”在数据中的普适性。这一发现不仅命名了“回归”,更奠定了统计学习的基础。
1.3 “简约而不简单”的核心体现
- 简约:模型形式直观(直线/超平面),数学原理清晰(最小化误差)。
- 不简单:
- 包含机器学习全流程(数据→模型→损失→优化→评估)。
- 是逻辑回归、神经网络(线性层)的基础组件。
- 可解释性极强(权重直接反映特征重要性,如“面积每增加1㎡,房价平均涨8000元”)。
图示1:单变量线性回归的几何意义
纵轴:目标值y(如房价)
横轴:特征x(如面积)
● :真实样本点
─ :拟合直线y=wx+b
| :样本点到直线的垂直距离(误差)
目标:找到使所有误差之和最小的直线
二、如何衡量“好模型”?——损失函数与最小二乘法
2.1 损失函数:量化预测误差
要判断模型好坏,需先定义“误差”。线性回归最常用均方误差(MSE),计算预测值与真实值的平均平方差:
MSE=1m∑i=1m(yi−y^i)2\text{MSE} = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2MSE=m1i=1∑m(yi−y^i)2
其中,m
是样本数,y_i
是真实值,\hat{y}_i = W^T X_i + b
是预测值。
- 平方的作用:放大较大误差(对离群点敏感),保证误差非负,便于数学优化(可导)。
- 目标:找到一组
W
和b
,使 MSE 最小——这就是最小二乘法的核心。
2.2 最小二乘法的数学求解
最小二乘法通过求导找极值求解最优参数(W
和 b
)。
(1)单变量线性回归的解析解
对于 y = w₁x + w₀
(w₀
即偏置 b
),最优参数为:
w1=∑(yi−yˉ)(xi−xˉ)∑(xi−xˉ)2,w0=yˉ−w1xˉw₁ = \frac{\sum (y_i - \bar{y})(x_i - \bar{x})}{\sum (x_i - \bar{x})^2}, \quad w₀ = \bar{y} - w₁\bar{x}w1=∑(xi−xˉ)2∑(yi−yˉ)(xi