Sigmoid函数与逻辑密度函数
_来自deepseek,仅做记录
目录
1. Sigmoid函数
定义
Sigmoid函数(逻辑斯蒂函数)的表达式为:
σ
(
x
)
=
1
1
+
e
−
x
\sigma(x) = \frac{1}{1 + e^{-x}}
σ(x)=1+e−x1
核心性质
- 输出范围:将任意实数 x ∈ R x \in \mathbb{R} x∈R 映射到 ( 0 , 1 ) (0, 1) (0,1)
- 与逻辑斯蒂分布的关系:
当逻辑斯蒂分布参数为 μ = 0 \mu=0 μ=0(位置参数)、 s = 1 s=1 s=1(尺度参数)时,Sigmoid函数是其累积分布函数(CDF) - 导数特性:
d d x σ ( x ) = σ ( x ) ⋅ ( 1 − σ ( x ) ) \frac{d}{dx}\sigma(x) = \sigma(x) \cdot \big(1 - \sigma(x)\big) dxdσ(x)=σ(x)⋅(1−σ(x))
应用场景
- 二分类概率建模(如逻辑回归中的概率输出)
- 神经网络激活函数(用于引入非线性)
- 数据归一化(将连续值压缩到概率区间)
2. 逻辑密度函数
定义
逻辑斯蒂分布的概率密度函数(PDF)为:
f
(
x
;
μ
,
s
)
=
e
−
(
x
−
μ
)
/
s
s
(
1
+
e
−
(
x
−
μ
)
/
s
)
2
f(x; \mu, s) = \frac{e^{-(x-\mu)/s}}{s \left(1 + e^{-(x-\mu)/s}\right)^2}
f(x;μ,s)=s(1+e−(x−μ)/s)2e−(x−μ)/s
参数说明
- μ \mu μ:位置参数(分布均值)
- s s s:尺度参数(控制分布宽度,方差为 s 2 π 2 3 \frac{s^2 \pi^2}{3} 3s2π2)
标准形式
当
μ
=
0
\mu=0
μ=0、
s
=
1
s=1
s=1 时,简化为:
f
(
x
)
=
e
−
x
(
1
+
e
−
x
)
2
=
σ
′
(
x
)
f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} = \sigma'(x)
f(x)=(1+e−x)2e−x=σ′(x)
特性对比
性质 | 逻辑密度函数 | 正态分布密度函数 |
---|---|---|
对称性 | 对称钟型曲线 | 对称钟型曲线 |
尾部衰减 | 厚尾(慢衰减) | 薄尾(快衰减) |
峰值尖锐度 | 较平缓 | 较尖锐 |
3. 二者关系
数学关联
- Sigmoid是逻辑分布的CDF:
P ( X ≤ x ) = σ ( x − μ s ) = 1 1 + e − ( x − μ ) / s P(X \leq x) = \sigma\left(\frac{x - \mu}{s}\right) = \frac{1}{1 + e^{-(x-\mu)/s}} P(X≤x)=σ(sx−μ)=1+e−(x−μ)/s1 - 逻辑密度是Sigmoid的导数:
f ( x ) = d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) f(x) = \frac{d}{dx} \sigma(x) = \sigma(x)\big(1 - \sigma(x)\big) f(x)=dxdσ(x)=σ(x)(1−σ(x))
可视化关系
- CDF(Sigmoid)曲线:单调递增的S型曲线(从0渐近到1)
- PDF(逻辑密度)曲线:对称钟型曲线(峰值在 μ \mu μ 处)
4. 应用场景对比
函数 | 典型应用场景 |
---|---|
Sigmoid函数 | 二分类概率输出、神经网络激活、数据压缩到(0,1)区间 |
逻辑密度函数 | 描述重尾数据分布、生存分析、对称分布建模 |
附录:关键公式速查
- Sigmoid函数:
σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+e−x1 - 逻辑密度函数(标准形式):
f ( x ) = e − x ( 1 + e − x ) 2 f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} f(x)=(1+e−x)2e−x - 导数关系:
d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) \frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x)) dxdσ(x)=σ(x)(1−σ(x))
✅ 总结:Sigmoid函数与逻辑密度函数通过导数紧密关联,分别描述逻辑斯蒂分布的累积概率和瞬时概率密度,广泛应用于概率建模与统计分析。