【机器学习】逻辑回归——数学原理推导

最新推荐文章于 2025-05-20 19:32:53 发布

原创最新推荐文章于 2025-05-20 19:32:53 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文深入解析逻辑回归模型的数学原理，从线性回归到Sigmoid函数的应用，详细推导了似然估计、损失函数及梯度下降的计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以逻辑回归的二分类模型作出如下推导：

1. 定义
在线性回归上套一层sigmoid函数
$\frac{1}{1 + e^{-z}}$

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}} = \frac{1}{1 + e^{-(\theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n)}}$

注： $x_0$ 是为了便于计算，人为增添的一列，值全为1

这里对函数 $g (z)$ 进行下求导运算，后面推导会用到。

$(\frac{1}{1 + e^{-z}})'$

$=e−z+1−1(1+e−z)2\quad\quad=\frac{e^{-z} +1-1}{{(1+e^{-z})}^2}$

$=11+e−z−1(1+e−z)2\quad\quad=\frac{1}{1+e^{-z}} - \frac{1}{{(1+e^{-z})}^2}$

$=g(z)(1−g(z))\quad\quad=g(z)(1-g(z))$

2. 计算概率
假定：

$p(y=1∣x;θ)=hθ(x)p(y=1|x;\theta) = h_\theta(x)$
$p(y=0∣x;θ)=1−hθ(x)p(y=0|x;\theta) = 1 - h_\theta(x)$

组合上述两式：

$p(y∣xθ)=hθ(x)yi(1−hθ(x))1−yip(y|x\theta) = h_\theta(x)^{y_i}(1-h_\theta(x))^{1-y_i}$

$y$ 是标签，正类标记1，负类标记0

3. 极大似然估计

$L(θ)=∏i=1m(hθ(xi)yi(1−hθ(xi))1−yi))L(\theta) = \prod_{i=1}^{m}{(h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}))}$

取对数，转累加

$l(θ)=ln⁡L(θ)l(\theta) = \ln L(\theta)$

$=∑i=1mln⁡(hθ(xi)yi(1−hθ(xi))1−yi))\quad =\sum_{i=1}^{m}{\ln(h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}))}$

$=∑i=1m[yiln⁡hθ(xi)+(1−yi)ln⁡(1−hθ(xi))]\quad =\sum_{i=1}^{m}{[y_i \ln h_\theta(x_i) + (1-y_i)\ln(1-h_\theta(x_i))]}$

说明：

当y=1时，我们期望 $p(y=1∣x;θ)p(y=1|x;\theta)$ 的值越大，即预测结果为正类的概率越大，误差就越小
当y=0时，我们期望 $p(y=0∣x;θ)p(y=0|x;\theta)$ 的值越大，即预测结果为负类的概率越大，误差也越小

因此我们的目标是求取似然函数 $l(θ)l(\theta)$ 的最大值。

4. 损失函数

对似然函数求最大值需要使用梯度上升的方式，这里我们引入 $J(θ)=−l(θ)J(\theta) = -l(\theta)$ ，转化为使用梯度下降的方式计算损失函数的最小值。

5. 梯度下降

$∂∂θJ(θj)=−∂∂θ∑i=1m[yiln⁡hθ(xi)+(1−yi)ln⁡(1−hθ(xi))]\frac{\partial}{\partial\theta}J(\theta_j) = -\frac{\partial}{\partial\theta}\sum_{i=1}^{m}{[y_i \ln h_\theta(x_i) + (1-y_i)\ln(1-h_\theta(x_i))]}$

$=−∑i=1m[yi1hθ(xi)∂∂θhθ(xi)−(1−yi)11−hθ(xi)∂∂θhθ(xi)]\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{h_\theta(x_i)}\frac{\partial}{\partial \theta} h_\theta(x_i)-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial}{\partial \theta} h_\theta(x_i)]}$

$=−∑i=1m[yi1hθ(xi)−(1−yi)11−hθ(xi)]∂∂θhθ(xi)\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{h_\theta(x_i)} - (1-y_i)\frac{1}{1-h_\theta(x_i)}]}\frac{\partial}{\partial \theta} h_\theta(x_i)$

$=−∑i=1m[yi1g(θTx)−(1−yi)11−g(θTx)]∂∂θg(θTx)\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{g(\theta^Tx)} - (1-y_i)\frac{1}{1-g(\theta^Tx)}]}\frac{\partial}{\partial \theta} g(\theta^Tx)$

$=−∑i=1m[yi1g(θTx)−(1−yi)11−g(θTx)]g(θTx)(1−g(θTx))∂∂θθTx\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{g(\theta^Tx)} - (1-y_i)\frac{1}{1-g(\theta^Tx)}]}g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial \theta}\theta^Tx$