逻辑回归

最新推荐文章于 2024-05-27 09:42:03 发布

原创最新推荐文章于 2024-05-27 09:42:03 发布 · 539 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文深入解析了对数几率回归模型的核心原理，包括sigmod函数的应用、对数几率的概念、模型参数的求解过程及损失函数推导。同时探讨了模型在分类任务中的评估方法，如错误率、精度、查准率和查全率，以及解决类别不平衡问题的策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理与预测函数

我们使用sigmod函数作为“广义线性模型”的单调可微函数g（.），得到
$y=\frac {1}{1+e^{-(w^T x+b)}} \qquad (1)$
上式可变换为
$\frac{y}{1-y}=w^Tx+b \qquad (2)$
若将y视为样本x作为正例的可能性，则1-y是其反例的可能性。两者的比值$ \frac{y}{1-y} $称为几率，反映了x作为正例的相对可能性，对几率去对数得到对数几率
$\frac {y}{1-y}$

由（2）式可知，实际上是用线性回归模型的预测结果去逼近真实标记的对数几率，其模型称为“对数几率回归”

我们来看如何求w和b，我们把（1）式的y视为类后验概率估计p(y=1|x)，在（2）式重写为

$\frac {p(y=1|x)}{p(y=0|x)} =w^Tx+b$

显然有
$p(y=1|x)=\frac{e^{w^T x+b}}{1+e^{w^T x+b}}$
$p(y=0|x)=\frac{1}{1+e^{w^T x+b}}$
预测函数，拿我们讨论的最标准的二分类来说，分别计算p(y=1|x),p(y=0|x)哪个条件概率大就分到哪一类

损失函数推导

对于给定的数据集 $ {(x_i,y_i)}^N_{i=1},y \in {0,1} $,

设P(Y=1|x)=g(x),P(Y=0|x)=1-g(x)

即 $\begin{cases} g(x), & \text {if $y$ is 1} \\ 1-g(x), & \text{if $y$ is 0} \end{cases}$

可以合在一起写为
$p(y|x)= [g(x_i)]^{y_i} [1-g(x_i)]^{1-y_i}$
两边取对数为
$log\ p(y|x) = y_i log\ g(x_i)+(1-y_i)log\ (1- g(x_i))$
p(y|x)的值需要最大化，但是我们损失函数需要最小化，所以前面加一个负号，就变成
$L(w,b)=-\{ y_i log\ g(x_i)+(1-y_i)log\ (1- g(x_i))\}$
就是交叉熵损失函数，其基本形式为
$H(p,q)=-\sum_x p(x)ln(q(x)$
反映了两个概率分布之间的差异信息,其中p表示真实分布，q表示非真实分布,即反应我们推测的分布和真实分布的差异大小信息。

损失函数求解

似然函数为
$\prod^N_{i=1} [g(x_i)]^y_i [1-g(x_i)]^{1-y_i}$
对数似然函数为
$L(w)=\Sigma ^N_{i=1} [y_ilog(x_i)+(1-y_i)log(1-g(x_i))]$
$=\Sigma^N_{i=1}[y_ilog \frac {g(x_i)}{1-g(x_i)} + log(1-g(x_i))]$
$=\Sigma^N_{i=1}[y_i (w \ast x_i)-log(1+\exp(w \ast x_i))]$
对L(w)求最大值，得到w的估计值,常用梯度下降和牛顿法解决

如果采用梯度下降，更新公式为

正则化

看这里
https://sumenpuyuan.github.io/2018/12/05/改善神经网络：第一周深度学习的实用层面/#zhengze

模型评估

错误率和精度

错误率和精度，这是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务.错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例.

查准率，查全率

错误率和精度虽常用，但并不能满足所有任务需求.以西瓜问题为例，假定瓜农拉来一车西瓜，我们用训练好的模型对这些西瓜进行判别，显然，错误率衡量了有多少比例的瓜被判别错误.但是若我们关心的是"挑出的西瓜中有多少比例是好瓜"，或者"所有好瓜中有多少比例被挑了出来那么错误率就不够用了’这时需要使用其他的性能度量.
类似的需求在信息检索、 Web搜索等应用中经常出现?例如在信息检索中，我们经常会关心"检索出的信息中有多少比例是用户感兴趣的" 用户感兴趣的信息中有多少被检索出来了查准率和查全率是更为适用于此类需求的性能度量.
对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形，令 TP、 FP、 TN、 FN 分别表示其对应的样例数，则显然有 TP+FP+TN+FN=样例总数.分类结果的"混淆矩阵" (confusion matrix)如下图所示

查准率P和查全率R分别定义为

$P=\frac{TP}{TP+FP}$
$R=\frac{TP}{TP+FN}$

类别不平衡问题

问题定义

类别数据不均衡是分类任务中一个典型的存在的问题。简而言之，即数据集中，每个类别下的样本数目相差很大。例如，在一个二分类问题中，共有100个样本（100行数据，每一行数据为一个样本的表征），其中80个样本属于class 1，其余的20个样本属于class 2，class 1:class2=80:20=4:1，这便属于类别不均衡。当然，类别不均衡问同样会发生在多分类任务中。