激活函数（ReLU/Sigmoid）、损失函数（交叉熵损失）的数学原理

### ReLU 激活函数的数学表达式与特性 ReLU（Rectified Linear Unit）激活函数的数学表达式为： $$ f(x) = \max(0, x) $$ 该函数具有以下特性： - **非线性**：尽管形式简单，ReLU 提供了非线性变换的能力，使得神经网络可以逼近任意复杂的函数。 - **稀疏激活**：对于所有负值输入，输出为 0，这模拟了生物神经元的稀疏性[^3]。 - **梯度保持**：在 $x > 0$ 区域，导数恒为 1；在 $x < 0$ 区域，导数恒为 0。这意味着在反向传播过程中，正数区域不会出现梯度消失问题。 - **计算高效**：相比于 Sigmoid 或 Tanh 函数，ReLU 的计算成本更低。 ### Sigmoid 激活函数的数学表达式与特性 Sigmoid 函数的数学表达式为： $$ \sigma(x) = \frac{1}{1 + e^{-x}} $$ 其导数表达式为： $$ \sigma'(x) = \sigma(x)(1 - \sigma(x)) $$ Sigmoid 函数的主要特性包括： - **输出范围**：输出值在 $(0, 1)$ 区间内，适用于二分类问题中的概率解释。 - **平滑可导**：便于使用梯度下降等优化算法进行参数更新。 - **梯度消失问题**：当输入值较大或较小时，函数趋于饱和，导数接近于零，导致反向传播过程中梯度逐渐缩小，影响深层网络的训练效果[^2]。 ### 交叉熵损失函数的数学原理与推导交叉熵损失函数常用于衡量两个概率分布之间的差异，尤其在分类任务中广泛应用。对于二分类问题，交叉熵损失函数定义如下： $$ L = -\left[y \log(p) + (1 - y)\log(1 - p)\right] $$ 其中： - $y$ 是真实标签（取值为 0 或 1） - $p$ 是模型预测的概率值（由 Sigmoid 函数输出）在多分类任务中，若使用 Softmax 激活函数将输出转换为类别概率分布，则交叉熵损失函数表示为： $$ L = -\sum_{i=1}^{C} y_i \log(p_i) $$ 其中： - $C$ 是类别总数 - $y_i$ 是第 $i$ 类的真实标签（one-hot 编码） - $p_i$ 是模型预测的第 $i$ 类概率 #### 推导过程示例（以二分类为例）：假设一个样本的真实标签为 $y$，模型输出经过 Sigmoid 函数后得到预测概率 $p$，则交叉熵损失函数为： $$ L = -\left[y \log(p) + (1 - y)\log(1 - p)\right] $$ 对该损失函数关于权重 $w$ 求导时，结合链式法则，可以得到梯度表达式： $$ \frac{\partial L}{\partial w} = (p - y) \cdot x $$ 这一结果表明，在二分类问题中，使用 Sigmoid 激活函数配合交叉熵损失函数时，梯度表达式简洁且避免了直接对 Sigmoid 导数连乘的问题，从而缓解了梯度消失现象[^2]。 ### 示例代码：实现 ReLU、Sigmoid 和交叉熵损失函数 ```python import numpy as np # ReLU 函数及其导数 def relu(x): return np.maximum(0, x) def relu_derivative(x): return (x > 0).astype(float) # Sigmoid 函数及其导数 def sigmoid(x): return 1 / (1 + np.exp(-x)) def sigmoid_derivative(x): s = sigmoid(x) return s * (1 - s) # 二分类交叉熵损失函数 def binary_cross_entropy(y_true, y_pred): epsilon = 1e-15 # 防止 log(0) y_pred = np.clip(y_pred, epsilon, 1 - epsilon) return -(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)).mean() # 多分类交叉熵损失函数 def categorical_cross_entropy(y_true, y_pred): epsilon = 1e-15 y_pred = np.clip(y_pred, epsilon, 1 - epsilon) return -np.sum(y_true * np.log(y_pred)) / y_true.shape[0] ``` ---

阅读全文

激活函数（ReLU/Sigmoid）、损失函数（交叉熵损失）的数学原理

相关推荐

深度学习中的激活函数：全面剖析与前沿展望

ReLU激活函数：简单之美 - 对半独白 - CSDN博客1

Verilog设计CNN卷积核以及激活函数

深入理解激活函数：ReLU、Sigmoid、Tanh在神经网络中的应用

【关键超参数详解】激活函数选择：ReLU、Sigmoid、Tanh等对非线性能力的贡献

【激活函数指南】：掌握ReLu、Sigmoid与Tanh的正确使用方法

【神经网络设计与训练】激活函数的作用与选择：ReLU、Sigmoid、Tanh等

ReLU激活函数：深度学习中的简单与美

深度解析ReLU到GELU的神经网络激活函数

【激活函数进阶】：掌握Sigmoid到ReLU的选择与调优

【激活函数对比分析】：Sigmoid、tanh与ReLU的深度比较

激活函数深度解析：掌握Sigmoid到ReLU进化，优化你的深度学习模型

深入理解PyTorch损失函数：从交叉熵到均方误差

【BP神经网络的构建与配置】激活函数的种类与适用场景：Sigmoid、ReLU、Tanh等

：Sigmoid激活函数：深入理解其原理，掌握逻辑回归的奥秘

对数似然损失函数与交叉熵之间的联系与区别

：Leaky ReLU激活函数：深度解读其特点，解决负值困扰

【激活函数与损失函数】：TensorFlow实现与应用详解

CNN网络的损失函数交叉熵

大家在看

matlab开发-高斯系数模型中DoLoanPortfolio的累积分布函数

Nature-Scientific-Data-2021

The GNU Toolchain for ARM targets HOWTO.pdf

串口调试助手 XCOM V2.6

Mapnik是用于开发地图绘制应用程序的开源工具包-C/C++开发

最新推荐

YOLO11-DeepSORT吸烟检测和跟踪-公共场所禁烟监控和健康行为引导+数据集+deepsort跟踪算法+训练好的检测模型.zip

VC图像编程全面资料及程序汇总

Pokemmo响应速度翻倍：多线程处理的高级技巧

人名列表滚动抽奖

一站式JSF开发环境：即解压即用JAR包

Pokemmo内存优化揭秘：专家教你如何降低50%资源消耗

直接访问子路由是吧

C++函数库查询辞典使用指南与功能介绍

【bat脚本安全最佳实践】：保护你的系统与脚本安全的黄金法则

IIC抽电