分类问题
逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计学习方法,尽管名字中带有"回归",但它实际上是一种用于二分类或多分类问题的算法。
逻辑回归通过使用逻辑函数(也称为 Sigmoid 函数)将线性回归的输出映射到 0 和 1 之间,从而预测某个事件发生的概率。
逻辑回归广泛应用于各种分类问题,例如:
- 垃圾邮件检测(是垃圾邮件/不是垃圾邮件)
- 疾病预测(患病/不患病)
- 客户流失预测(流失/不流失)
在线性模型中的应用:
其中,输出的阈值是0.5,当h(x)>=0.5,y=1;当h(x)<0.5,y=0
假说解释
逻辑回归有:0<=h_w(x)<=1,h_w(x)=g(w^T x)
我们令集中z=w^T x,那么h(x)=g(z)
其中我们的sigmoid 函数(激活函数)是,代入可以得到:
决策边界
与数据无关
代价函数
对于训练集:
m个样本:,其中x_0=1,y∈{0,1}
对于对于损失函数:
所以,J(w):
这样可能导致找到局部最小值,需要引入新的代价函数,也就是:
简化的成本函数和梯度下降
由前面的可以知道,对于逻辑回归的代价函数,有:
需要注意y=0/1,可以得到:
我们需要拟合参数w,使得,然后根据样本x输出预测
对于梯度下降:
对
这里我们省略推导过程,得到:
为了防止过拟合还可以引入正则化,在代价函数后面加上:
同样的在对w的拟合过程中: