二分类最优阈值确定_三层境界带你了解最全面的逻辑回归分类算法

本文从三层境界探讨逻辑回归,从线性回归出发,介绍逻辑回归如何通过Sigmoid函数将输出限定在0-1之间,解决分类问题。讨论了逻辑回归的损失函数、最大似然估计以及梯度下降法求解模型参数。接着从几率比角度解释逻辑回归,并介绍了多分类问题的解决方案,如one-vs-one和one-vs-all。此外,还涉及了如何处理线性不可分问题,如使用核函数和FM算法。最后,解释了为何对连续型数值进行离散化和归一化的原因,并简要比较了逻辑回归与朴素贝叶斯的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

5e5d791dbab69e76c1d534906e8181c6.png

逻辑回归分类算法的前世今生

前沿

首先说明此次的分享是笔者学习逻辑回归的各种博客、书籍、资料后整理的个人认为最全最有价值的内容,其中会涉及到很多你可以在其他资料中见到的内容,涉及到的内容笔者一定也会指出引用。强调一下,这篇文章也只是网上各种优秀分享的集大成者和一些笔者浅陋的认识而已。

第一层境界

首先我们来看一下网上最常见的一种逻辑回归讲解方法【1】:

提到LR,就得从线性回归讲起,线性回归模型的目的是在多维空间中存在的样本点,我们用特征的线性组合(特征加权)去拟合空间中点的分布和轨迹。对于有监督训练数据集(X,Y),X表示特征,Y表示标签,w表示该某一特征对应的权重,最终的线性模型如hw(x)所示:

cfc7924c736042f8d930a59be1b5d35d.png

67338514c15fb597a1998348ed266fbf.png

2cda28ebecc9d7faac9c92ab57c418a8.png

线性回归结果示意图:

0637f5bb9ece0078e559c5f49303b8ed.png

可以看到线性回归模型主要解决对于连续数值的拟合任务,因为其输出范围是无穷大(计算机存储空间限制内)所以原则上也是可以做分类。但是针对分类问题,该方法则有点不适应,因为线性回归的输出值是不确定范围的,无法很好的一一对应到我们的若干分类中。即便是一个二分类,线性回归+阈值的方式,已经很难完成一个鲁棒性很好的分类器了。由于线性回归的输出范围不确定,所以我们能不能找一个函数把输出强制规范到0-1区间内来做分类呢?当然可以,通过在线性回归模型中引入Sigmoid函数,将线性回归的不确定范围的连续输出值映射到(0,1)范围内,成为一个概率预测问题,bingo!这就是逻辑回归模型。逻辑回归是假设数据服从Bernoulli分布,因此LR属于参数模型。我们先来看一下sigmoid函数的定义及图像:

1d0faf312e1e6e07522b37864c14388c.png

a422d354ed5bad05f7f76500181d9ae4.png

可以看到sigmoid函数的定义域是负无穷到正无穷,值域是0-1,可以很好地满足我们对于改进线性回归的需求。除此之外,sigmoid还有一个有点就是导数好求:

aefafdcc7794f040fe585e5aef1557ac.png

整合一下,逻辑回归的推断公式为:

f5e37e93207e0665c7f0b95c4dbd2719.png

所以对于整个样本集,m个独立的样本出现的似然函数为(因为每个样本都是独立的,所以m个样本出现的概率就是他们各自出现的概率相乘),得到整个样本的似然函数为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值