机器学习实践——预测数值型数据：回归

最新推荐文章于 2023-03-01 09:36:27 发布

原创

最新推荐文章于 2023-03-01 09:36:27 发布 · 723 阅读

2 ·

CC 4.0 BY-SA版权

线性回归过程就是：将输入项乘上一些常量，然后再累加起来，就得到预测值。那么如何找到这些常量呢？

求解这些回归系数的过程就是回归。

根据回归过程，可以得到一般公式：

Y = wT*x

现在问题是，我们有x的值和y的值，如何求出向量w的值，常用的方法就是是误差最小的 w，所以采用平方误差

对W进行求导，令其为零，解出W如下：

值得注意的是，上述公式包含对矩阵的求逆，那么如果该矩阵的行列式等于0，就不可逆，所以必须先判断矩阵是否可逆。

注：求解W的方法是统计学常用的方法，称之为最小二乘法（least square）

求解W的代码：

#加载数据
def loadDataSet(filename):
    fr = open(filename)
    numFeat = len(fr.readline().strip().split('\t')) - 1
    dataMat = []; labelMat = []
    for line in fr.readlines():
        lineArr = []
        currLine = line.strip().split('\t')
        for i in range(numFeat):
          lineArr.append(float(currLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(currLine[-1]))
    return  dataMat,labelMat

#计算W
def standRegers(xArr,yArr):
    #首先转换为矩阵，方便计算
    xMat = mat(xArr)
    yMat = mat(yArr).T
    xTx = xMat.T * xMat
    #判断矩阵的行列式是否为0
    if linalg.det(xTx) == 0.0:
        print "这个矩阵没有逆矩阵"
        return
    #求出W
    ws = xTx.I * (xMat.T * yMat)
    return ws

通过matplotlib将数据可视化，并画出最佳拟合直线

#加载数据
xArr, yArr = loadDataSet('Ch08/ex0.txt')
ws = standRegers(xArr,yArr)
#转换为矩阵
xMat = mat(xArr)
yMat = mat(yArr)
#预测的y值
yHat = xMat*ws
fig = plt.figure()
axes = fig.add_subplot(111)
axes.scatter(xMat[:,1].flatten().