机器学习基础与Java库介绍
1. 线性回归与评估指标
1.1 线性回归
线性回归是最基础的回归模型,它假设特征与目标变量之间存在线性依赖关系。通常使用最小二乘法来拟合模型,即最佳模型能使误差的平方和最小。不过,在很多情况下,线性回归无法对复杂关系进行建模。
1.2 回归评估指标
- 均方误差(Mean Squared Error, MSE) :是预测值与真实值之间平方差的平均值,公式为:
[MSE(X, Y)=\frac{1}{n}\sum_{i = 1}^{n}(f(X_i)-Y_i)^2]
该指标对异常值非常敏感,并且也受均值的影响。因此,相对平方误差(比较预测器的MSE与均值预测器的MSE)常被使用。 - 平均绝对误差(Mean Absolute Error, MAE) :是预测值与真实值之间绝对差的平均值,公式为:
[MAE(X, Y)=\frac{1}{n}\sum_{i = 1}^{n}|f(X_i)-Y_i|]
MAE对异常值的敏感度较低,但同样受均值和尺度的影响。 - 相关系数(Correlation Coefficient, CC) :通过比较预测值相对于均值的平均值与训练值相对于均值的乘积来衡量相关性。若数值为负,表示弱相关;为正,表示强相关;为零,则表示无相关。其公式为:
[CC_{XY}=\frac{\sum_{i = 1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\