模型的定义
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构和高维映射习得。
由于属性的权重直观地表达了各属性在预测中的重要性,因此线性模型有很好的“可解释性”(comprehensibility),也称“可理解性”(understandability)。
“线性回归”(Linear regression)试图学得一个线性模型以尽可能准确的预测实值输出标记。
模型的表示
常规化表示如下
在机器学习中,一般采用向量形式表示如下:
其中,在w和b学得后,模型就得以确定。
注意,在向量表示时:
采用“;”,表示列向量;
如果 采用“,”,表示行向量;
属性数值化
为了能进行数值运算,样本中的非数值类属性都需要进行数值化。
对离散属性,若属性之间存在“序”(order)关系,可通过连续化将其转化为连续值。
若属性间不存在序关系,假定有k个属性值,则通常转化为k纬向量。
如果将无序属性连续化,则会不恰当的引入序关系,对后续处理如距离计算等造成误导。
性能度量
“均方误差”(mean squared error)是回归任务中最常用的性能度量,均方误差也称“平方损失”(square loss)。
均方误差的表示方法:
均方误差对应常用的欧几里得距离(Euclidean distance, 简称“欧式距离”),有非常好的几何意义。
基于均方误差最小化来进行模型求解的方法,称为“最小二乘法”(least square method)。
在线性回归中,最小二乘法就是试图找到一条直线使所有样本到直线上的欧式距离之和最小。
求解参数使得欧式距离最小化的过程称为线性回归模型的最小二乘“参数估计”(parameter estimation)。
解析解(analytical solution),可以直接求解;
数值解(numerical solution),没有解析解,只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。
如果样本有 d 个属性描述,这时的回归称为“多元线性回归”(multivariate linear regression),也称“多变量线性回归”。
模型的扩展
可以令模型预测逼近线性的衍生物,一种情况是将输出标记的对数作为线性模型逼近的目标,这就是“对数线性回归”(log-linear regression)。
更一般的(泛化),考虑单调可微函数,令
这样的模型称为“广义线性模型”(generalized linear model),其中函数称为"联系函数"(link function)。
广义线性模型的参数估计常通过加权最小二乘法或极大似然法进行。
内容参考: