目录
一、逻辑斯蒂回归算法概述
1、算法介绍
逻辑斯蒂回归(Logistic Regression)是一种用于解决分类问题的机器学习算法。它是通过将线性回归模型的输出映射到一个概率值,然后根据这个概率值进行分类的。
逻辑斯蒂回归假设因变量(要预测的变量)与自变量之间存在一个线性关系,然后使用逻辑函数(也称为sigmoid函数)将线性组合转化为概率值。
2、算法优缺点
(1)、优点:
-
简单而高效:逻辑斯蒂回归算法相对简单,易于理解和实现。它的计算速度快,在处理大规模数据时表现出较好的效率。
-
可解释性强:逻辑斯蒂回归输出的是概率值,可以直接解释为某个样本属于某个类别的概率。同时,权重参数的大小和方向可以提供关于自变量对因变量影响的有用信息。
-
鲁棒性强:逻辑斯蒂回归对于异常值的影响相对较小,能够处理包含噪声的数据集。
-
适用性广泛:逻辑斯蒂回归可以应用于各种类型的特征,包括连续型和离散型特征。此外,它也可以用于二分类问题和多分类问题。
(2)、缺点:
-
线性关系假设:逻辑斯蒂回归假设因变量与自变量之间存在线性关系,如果数据集中的关系非线性,逻辑斯蒂回归可能无法很好地拟合数据。
-
容易产生欠拟合:当特征之间存在复杂的非线性关系时,逻辑斯蒂回归的表达能力可能不足,导致欠拟合现象。
-
对异常值敏感:虽然逻辑斯蒂回归对于小规模的异常值比较鲁棒,但在存在大量异常值的情况下,模型的性能可能会受到影响。
-
数据要求独立性:逻辑斯蒂回归假设样本之间相互独立,如果数据集中存在相关性较强的样本,模型的性能可能会下降。
二、逻辑斯蒂算法原理
在理解逻辑斯蒂算法之前,我们先来了解一下线性模型与回归
1、线性模型与回归
在二维平面上,线性模型一般是这样的形式来出现,但是在实际情况中,输入的样本
一般都会有不止一个特征,因此一般情况下的线性模型如下:
其中是由d维属性描述的样本,其中
是 x 在第 i 个属性上的取值。w则是各个x对应的参数。当然这样子书写仍是会过于麻烦,所以一般以向量的形式表示:
其中为待求解系数;
因此,我们构造了一个线性模型,然后我们将得到的样本送进模型中进行训练,最后用训练过的线性模型来尽可能准确地预测实值输出标记。
2、最小二乘法
既然要训练这个线性回归模型,那么每次训练的参数w和b的求解就很重要,参数w和b的求解我们使用的是最小二乘法。
线性回归的目标是要让否