线性回归过程就是:将输入项乘上一些常量,然后再累加起来,就得到预测值。那么如何找到这些常量呢?
求解这些回归系数的过程就是回归。
根据回归过程,可以得到一般公式:
Y = wT*x
现在问题是,我们有x的值和y的值,如何求出向量w的值,常用的方法就是是误差最小的 w,所以采用平方误差
对W进行求导,令其为零,解出W如下:
值得注意的是,上述公式包含对矩阵的求逆,那么如果该矩阵的行列式等于0,就不可逆,所以必须先判断矩阵是否可逆。
注:求解W的方法是统计学常用的方法,称之为最小二乘法(least square)
求解W的代码:
#加载数据
def loadDataSet(filename):
fr = open(filename)
numFeat = len(fr.readline().strip().split('\t')) - 1
dataMat = []; labelMat = []
for line in fr.readlines():
lineArr = []
currLine = line.strip().split('\t')
for i in range(numFeat):
lineArr.append(float(currLine[i]))
dataMat.append(lineArr)
labelMat.append(float(currLine[-1]))
return dataMat,labelMat
#计算W
def standRegers(xArr,yArr):
#首先转换为矩阵,方便计算
xMat = mat(xArr)
yMat = mat(yArr).T
xTx = xMat.T * xMat
#判断矩阵的行列式是否为0
if linalg.det(xTx) == 0.0:
print "这个矩阵没有逆矩阵"
return
#求出W
ws = xTx.I * (xMat.T * yMat)
return ws
通过matplotlib将数据可视化,并画出最佳拟合直线
#加载数据
xArr, yArr = loadDataSet('Ch08/ex0.txt')
ws = standRegers(xArr,yArr)
#转换为矩阵
xMat = mat(xArr)
yMat = mat(yArr)
#预测的y值
yHat = xMat*ws
fig = plt.figure()
axes = fig.add_subplot(111)
axes.scatter(xMat[:,1].flatten().