
假设你正在研究一种罕见疾病,通过临床试验收集了部分患者的检测数据。你发现,这些数据似乎符合某种概率分布,但你并不清楚分布的具体参数。
此时,你该如何利用这些有限的样本数据,推断出最合理的参数值呢?
这正是极大似然估计(MLE)大显身手的地方!MLE 是一种基于概率模型的参数估计方法,它通过寻找让观测数据出现概率最大的参数值,来推断总体参数。
这种方法不仅在统计学中有着悠久的历史,还在机器学习、数据分析等领域被广泛应用。
今天,我们将从基础概念讲起,逐步深入到手动推导过程,帮助你真正理解 MLE 的原理。
一、MLE的初步理解
在深入探讨极大似然估计之前,我们先来澄清一个常见的概念混淆:似然(Likelihood)和概率(Probability)。
假设你正在抛一枚硬币,想知道它正面朝上的概率 p。
如果你已经知道硬币是公平的,即 p=0.5,那么抛 10 次硬币,出现 6 次正面的概率可以通过二项分布公式计算出来,这就是概率的问题—已知参数,求结果出现的可能性。

但反过来,如果不知道硬币是否公平,而是通过抛 10 次硬币,观察到 6 次正面,此时你想推断硬币正面朝上的概率 p。
这个问题就变成了似然的问题—已知结果,求参数的可能性。
似然函数的核心作用是衡量参数取某个值时,观测数据出现的可能性大小。换句话说,似然函数告诉我们,在不同的参数假设下,观测到当前数据的“合理性”有多高。
理解了似然的概念后,极大似然估计的定义就变得很直观了:选择让观测数据出现概率最大的参数值。

为了更形象地理解这一点,我们来看一个简单的例子。假设你抛了 10 次硬币,观察到 6 次正面。
我们可以画出似然函数的图像,横轴是硬币正面朝上的概率 p(从 0 到 1),纵轴是似然值(即在不同 p 下,观察到 6 次正面的概率)。
从图中可以看出,当 p 接近 0.6 时,似然值达到最大。因此,极大似然估计的结果就是 p=0.6。
这似乎符合我们的直觉:既然观察到 6 次正面,那么硬币正面朝上的概率很可能接近 0.6。
二、数学基础回顾
在深入推导极大似然估计之前,我们需要复习一些数学基础知识,特别是概率分布、对数函数和导数。
2.1 概率分布
概率分布是描述随机变量取值规律的数学模型。常见的概率分布包括:
-
二项分布:用于描述在固定次数的独立试验中,成功次数的概率分布。例如,抛硬币 10 次,正面朝上的次数服从二项分布。
-
正态分布:自然界中许多连续型随机变量都服从正态分布,如身高、体重等。它具有对称性、均值和方差等特性。
这些概率分布的参数决定了分布的形状。例如,二项分布的参数是成功概率 p p p,正态分布的参数是均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2。极大似然估计的任务就是通过样本数据推断这些参数。
2.2 对数、导数
对数函数和导数在极大似然估计中扮演着重要角色。
📌 对数函数具有简化乘法运算的特性,即
log ( a b ) = log ( a ) + log ( b ) \log(ab) = \log(a) + \log(b) log(ab)=log(a)+log(b)
在似然函数中,我们经常需要计算多个概率的乘积,取对数后可以将乘法转化为加法,简化计算。
📌 导数用于寻找函数的极值。通过求导数并令其为零,我们可以找到函数的最大值或最小值。
在极大似然估计中,我们需要通过求导数来找到让似然函数(或对数似然函数)达到最大值的参数。
三、MLE的推导步骤
现在,我们已经具备了必要的基础知识,接下来将详细介绍极大似然估计的推导过程。
为了便于理解,我们将通过具体的例子逐步展开。
3.1 似然函数的构建
假设我们有一组样本数据 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \ldots, x_n\} X={x1,x2,…,xn},这些数据服从某个已知的概率分布,但分布的参数未知。我们的目标是通过这些样本数据推断出参数 θ \theta θ。
以二项分布为例,假设我们抛硬币 10 次,观察到 6 次正面。二项分布的概率质量函数为:
P ( X = k ∣ p ) = ( n k ) p k ( 1 − p ) n − k P(X = k|p) = \binom{n}{k} p^k (1 - p)^{n-k} P(X=k∣p)=(kn)pk(1−p)n−k
其中, n n n 是试验次数, k k k 是成功次数, p p p 是成功概率。对于我们的例子, n = 10 n = 10 n=10, k = 6 k = 6 k=6。
似然函数 L ( p ) L(p) L(p) 就是将样本数据代入概率分布公式中,表示为参数 p p p 的函数:
L ( p ) = P ( X = 6 ∣ p ) = ( 10 6 ) p 6 ( 1 − p ) 4 L(p) = P(X = 6|p) = \binom{10}{6} p^6 (1 - p)^4 L(p)=P(X=6∣p)=(610)p6(1−p)4
3.2 对数似然函数的构建
在实际计算中,直接处理似然函数可能会遇到一些问题,比如数值下溢(当概率值非常小时,乘积可能接近于零)。
为了避免这些问题,我们通常取似然函数的对数,得到对数似然函数。
对数似然函数的定义为:
ℓ ( p ) = log L ( p ) \ell(p) = \log L(p) ℓ(p)=logL(p)
对于二项分布的例子,对数似然函数为:
ℓ ( p ) = log ( ( 10 6 ) p 6 ( 1 − p ) 4 ) = log ( 10 6 ) + 6 log p + 4 log ( 1 − p ) \ell(p) = \log \left( \binom{10}{6} p^6 (1 - p)^4 \right) = \log \binom{10}{6} + 6 \log p + 4 \log (1 - p) ℓ(p)=log((610)p6(1−p)4)=log(610)+6logp+4log(1−p)
这里, log ( 10 6 ) \log \binom{10}{6} log(610) 是一个常数项,不影响后续的求导过程,因此可以忽略。
3.3 求解最大值
为了求解上述优化问题,我们可以通过求导并令导数为零来找到最优解。
具体步骤如下:
对 ℓ ( p ) \ell(p) ℓ(p) 关于 p p p 求导:
d ℓ ( p ) d p = 6 p − 4 1 − p \frac{d\ell(p)}{dp} = \frac{6}{p} - \frac{4}{1 - p} dpdℓ(p)=p6−1−p4
令导数等于零,解方程:
6 p − 4 1 − p = 0 \frac{6}{p} - \frac{4}{1 - p} = 0 p6−1−p4=0
解得:
p = 0.6 p = 0.6 p=0.6
这就是极大似然估计的结果。
通过手动推导,我们得到了硬币正面朝上的概率 p = 0.6 p = 0.6 p=0.6。
3.4 验证最大值
为了确保我们找到的是极大值,而不是极小值或鞍点,我们可以进一步计算二阶导数:
d 2 ℓ ( p ) d p 2 = − 6 p 2 − 4 ( 1 − p ) 2 \frac{d^2\ell(p)}{dp^2} = -\frac{6}{p^2} - \frac{4}{(1 - p)^2} dp2d2ℓ(p)=−p26−(1−p)24
当 p = 0.6 p = 0.6 p=0.6 时,二阶导数为负,说明这是一个极大值点。
通过今天的探讨,我们已经对极大似然估计有了全面的了解。
从基础概念到数学回顾,再到手动推导,我们一步步揭开了 MLE 的神秘面纱。
极大似然估计的核心思想是通过寻找让观测数据出现概率最大的参数值,来推断总体参数。
注:本文中未声明的图片均来源于互联网