一文让你搞懂深度学习中神经网络的各层结构与功能

原创已于 2025-06-02 16:18:31 修改 · 1.3k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #cnn

于 2025-06-02 16:02:19 首次发布

神经网络同时被 3 个专栏收录

19 篇文章

订阅专栏

深度学习

5 篇文章

订阅专栏

CNN

1 篇文章

订阅专栏

在深度学习领域，卷积层是构建卷积神经网络（CNN）的关键组件，它通过一系列独特的机制，高效地处理图像等数据，提取出丰富的特征，为后续的任务，如分类、检测等，奠定坚实基础。接下来，我们将深入探讨卷积层的工作原理，包括局部连接、权重共享、卷积操作，以及卷积核在特征提取中的关键作用，同时还会涉及池化层、激活函数、Flatten层和全连接层的相关内容。

1. 卷积层原理

1.1 操作过程

卷积运算，也称为互相关运算，是卷积层的核心操作。具体来说，对于一个输入图像矩阵，假设其大小为 m×n，卷积核的大小为 k×k。卷积操作的过程如下：

将卷积核放置在输入图像的左上角，使得卷积核与图像矩阵中同等大小的子区域对齐。
对应位置的元素相乘，即卷积核中的每个元素与子区域中对应位置的元素相乘。
将所有乘积相加，得到一个标量值。这个标量值就是卷积操作在当前位置的结果。
将卷积核向右移动一个像素（步长为1），重复上述操作，直到卷积核滑动到图像的最右侧。
然后，将卷积核向下移动一个像素，继续从左到右进行卷积操作，直到整个图像都被覆盖。

最终，卷积操作的结果是一个新的矩阵，其大小为 (m−k+1)×(n−k+1)。这个矩阵被称为特征图（Feature Map），它包含了输入图像在卷积核所定义的特征方面的信息。

用数学公式表示卷积操作如下：假设输入图像为 I，卷积核为 K，特征图 F 中位置 (i,j) 的元素 F(i,j) 可以表示为：

F(i,j)=∑u=0k−1∑v=0k−1I(i+u,j+v)⋅K(u,v)

其中，i 和 j 分别表示特征图中的行和列索引，u 和 v 分别表示卷积核中的行和列索引。

1.2 作用

卷积层的主要作用是提取输入数据的不同特征。通过滑动窗口的方式，卷积操作能够捕捉到输入图像中的局部特征，如边缘、纹理等。这些局部特征对于后续的高级特征提取和任务处理至关重要。

对于图像数据，可以将其分为低频分量和高频分量。低频分量指的是图像中灰度变化缓慢的区域，通常是图像中大片平坦的部分，占据了图像的主要部分。而高频分量则是灰度变化剧烈的区域，如图像的边缘和细节，它们在图像中所占比例相对较小。噪声通常也属于高频分量，因为噪声与周围像素的灰度变化不同，会产生突变。

1.3 卷积核的取值影响

卷积核的取值决定了卷积操作的性质，从而影响滤波后的信号特性。不同的卷积核可以实现不同的滤波效果，如高通滤波和低通滤波。

高通滤波
- 当卷积核 w=[1/2,0,−1/2] 时，可以近似信号序列的一阶微分。这种卷积核对图像中的边缘和细节等高频分量较为敏感，能够突出图像中的边缘特征。
- 当卷积核 w=[1,−2,1] 时，可以近似信号序列的二阶微分。这种卷积核对图像中的二阶变化更为敏感，能够进一步增强图像中的边缘和细节特征。
低通滤波
- 当卷积核 w=[1/3,1/3,1/3] 时，相当于进行移动平均。在时域上，它是一个矩形窗；在频域上，它是一个 Sa 函数。这种卷积核主要用于提取信号的低频分量，能够平滑图像，去除噪声。

卷积核起到了滤波和特征提取的作用，其参数决定了滤波器的性质。例如，Sobel算子是一种常用的边缘检测算子。对于一个 3×3 的Sobel算子，其在竖直方向上的卷积核可以表示为：

当这个卷积核与输入图像的像素值进行逐元素相乘并求和时，可以得到图像在竖直方向上的一阶梯度。这个梯度在边缘区域有较大的值，而在非边缘区域则为零。经过训练的神经网络可以被视为一个映射函数，同时也是特征提取器。当卷积核的参数固定时，不同类别的图像经过这个由多个卷积层堆叠组成的特征提取器后，可以提取出图像的不同特征，并得到不同的输出。以Sobel算子为例，任何图像经过Sobel竖直方向的算子后，都会被提取出竖直方向的边缘特征，输出竖直方向的边缘特征图。因此，卷积操作由于其参数的特性，能够实现不同图像经过相同的卷积操作时，提取相同的特征，但输出不同的特征图。当多个卷积层组合在一起时，可以提取图像的多种特征；而当卷积层堆叠起来时，可以提取不同分量的特征以及更深层次的特征。

2. 局部连接和权重共享

（1）局部连接：在卷积层（假设是第i层）中，每个神经元仅与前一层（第i−1层）中局部区域内的神经元相连，形成局部连接网络。这种连接方式使得卷积层与前一层之间的连接数量显著减少。原本的连接数为Mi×Mi-1个，现在变为Mi×K个，其中K表示卷积核的大小。

（2）权重共享：对于第i层，卷积核Wi作为参数，对这一层的所有神经元都是相同的。可以这样理解：一个卷积核主要用于捕捉输入数据中的一种特定局部特征。因此，若要提取多种不同的特征，就需要使用多个不同的卷积核。由于局部连接和权重共享的机制，卷积层的参数主要包括一个K维的权重和1维的偏置，总共K+1个参数。

3. 图像卷积操作

假设卷积层的输入是一个6×6×3的图像，即图像有3个通道（对应图片的三原色），尺寸为6×6。卷积核的大小为3×3，步幅（stride）为1，填充（padding）为0，卷积核的个数为3。那么卷积层的输出尺寸可以通过公式计算得出：[(6−3)/1]+1=4，所以输出数据的尺寸为4×4×3。

对于每个3×3的卷积核，它会在输入的6×6×3图像上进行滑动卷积操作。卷积核的每一次滑动，实际上是选取它所覆盖的元素，然后将这些元素输入到一个神经元中。这个神经元可以看作是一个线性方程f(x)+bias，其中卷积核的参数就是线性方程的权值系数。卷积核选取的元素与神经元参数（即卷积核参数）进行点乘求和，这样就完成了一次滑动卷积，得到了输出特征映射的一个元素。

换言之，输出特征映射的每一个元素都对应一个神经元的输出。输出有3个特征映射（feature map），每个特征映射的大小为4×4，即每个特征映射有16个神经元。因此，这个卷积层总共有16×3=48个神经元。

对于卷积的参数个数，由于每个特征映射都共享对应的卷积核参数，且每个卷积核的参数数量为3×3+1=10个（包括偏置项）。因为有3个卷积核，所以总的卷积核参数数量为3×10=30个参数。

4. 填充（Padding）与步幅（Stride）

（1）卷积操作通常存在以下两个问题：

每进行一次卷积运算，图像的尺寸就会缩小。如果进行多次卷积运算，图像的尺寸会变得非常小。
角落和边缘的像素点信息容易丢失。图像中间的像素点在卷积过程中会被多次使用，而图像角落和边缘的像素点在卷积过程中被使用到的次数较少，这可能导致角落和边缘的数据在卷积后丢失。

（2）引入填充和步幅的概念

填充：在输入特征图的每一边添加一定数量的行列。其目的是让每个输入像素都能作为卷积窗口的中心。
步幅：卷积核在输入特征图上滑动时的采样间隔。其目的是减小输入参数的数量，从而减少计算量。

例如，当填充（Padding）为1，步幅（Stride）为1时，卷积运算的输出矩阵宽度可以通过公式计算：2×Padding+输入矩阵宽度−卷积核宽度+1=2×1+6−3+1=6。

在深度学习框架TensorFlow中，定义填充有两种方式：valid和same。

当padding=‘valid’时，不会在原有输入的基础上添加新的像素。因此，在操作时滤波器可能无法将某个方向上的数据完全处理完，即可能会存在未被覆盖的部分。其输出矩阵宽度的计算公式为：。
当padding=‘same’时，会尽可能从输入的左右两边进行填充，从而使卷积核能够刚好覆盖所有输入。其输出矩阵宽度的计算公式为：。

举例说明：

当步幅（stride）为1，填充（padding）为0（无填充，padding=‘valid’）时，输出尺寸会根据上述valid填充方式的公式计算得出。
当步幅（stride）为1，填充（padding）为1（有填充，padding=‘same’）时，输出尺寸会根据上述same填充方式的公式计算得出。
当步幅（stride）为2，填充（padding）为0（无填充，降采样）时，输出尺寸会缩小为原来的二点五分之一。
当步幅（stride）为2，填充（padding）为1（有填充，降采样）时，输出尺寸会缩小为原来的二分之一。

2. 池化层（Pooling Layer）原理与公式解析

1. 池化层核心原理

池化层通过对输入特征图的局部区域进行聚合操作，实现特征降维和计算效率优化。其核心操作是在一个固定大小的窗口（如 2×2 或 3×3）内，通过最大值或平均值等聚合方式生成新的特征值，使得输出特征图的空间尺寸减小（如从 H×W 降至 $H/2×W/2$ ），同时保留关键特征。

2. 池化层数学描述

假设输入特征图为 X∈RC×H×W，池化窗口大小为 k×k，步长为 s，填充为 p。池化层的输出特征图 Y∈RC×H′×W′ 可表示为：

其中，H′ 和 W′ 为输出特征图的高度和宽度。

3. 最大池化（Max Pooling）

操作定义：在池化窗口内取最大值作为输出。

公式表示：

对于窗口位置 (i,j)，输出值 Yc,i,j 为：Yc,i,j=max(m,n)∈Window(i,j)Xc,m,n

作用：
- 保留纹理细节和强响应特征（如边缘、角点），抑制噪声。
- 示例：输入特征图局部区域为 [1234]，最大池化输出为 4。

4. 平均池化（Average Pooling）

操作定义：计算池化窗口内的平均值作为输出。

公式表示：

对于窗口位置 (i,j)，输出值 Yc,i,j 为：Yc,i,j=k21∑(m,n)∈Window(i,j)Xc,m,n

作用：
- 平滑特征，保留整体均值信息，突出背景和低频特征。
- 示例：输入特征图局部区域为 [1234]，平均池化输出为 41+3+2+4=2.5。

5. 池化层核心优势

特性	最大池化	平均池化
特征保留	突出显著特征（如物体边缘）	保留全局平均信息（如背景）
计算量	O(k2) per window	O(k2) per window
抗过拟合	通过降维减少参数数量	通过降维和平滑抑制参数冗余
典型应用场景	图像分类（如 ResNet）	语义分割（如 FCN 模型）

6. 池化层与卷积层的协同作用

感受野扩大：池化后特征图尺寸减小，后续卷积层在相同 kernel size 下可覆盖更大的原始图像区域。例如：
- 输入图像尺寸 224×224，经 3×3 卷积（步长 1）和 2×2 池化（步长 2）后，下一层卷积的有效感受野从 3×3 扩大至 3×3+2×2=7×7（近似）。
特征层次化：多层池化与卷积交替堆叠，可提取从低级纹理（如边缘）到高级语义（如物体类别）的多层次特征。

总结

池化层通过空间聚合操作实现特征降维，平衡了计算效率与特征表达能力。最大池化和平均池化分别针对 “显著特征保留” 和 “全局信息平滑” 设计，二者在深度学习模型（如 CNN）中广泛用于构建层次化特征提取流水线，是防止过拟合和优化模型性能的关键组件。

3. 归一化层

（1）归一化定义

归一化是一种数据预处理技术，通过将原始数据转换为均值为 0、方差为 1 的标准正态分布，消除不同特征间量纲差异的影响。其数学表达式为：

$\hat{x} = \frac{x - \mu}{\sigma + \epsilon}$

其中：

x 为原始输入值
$\mu$ 为该批次数据的均值
$\sigma$ 为标准差
$\epsilon$ 是一个极小的常数（如 $10^{-5}$ ），用于数值稳定性防止除零

（2）归一化的目的

在机器学习中，特征向量的不同维度往往具有不同的量纲（如身高以米计、体重以千克计），这种差异会导致：

大数主导问题：数量级较大的特征会掩盖较小特征的影响
梯度下降低效：参数空间不规则导致收敛路径曲折
梯度稳定性问题：激活函数易陷入饱和区（如 Sigmoid 在输入绝对值较大时梯度趋近于 0）

归一化的核心作用在于：

加速收敛：将数据映射到梯度敏感区域，使梯度下降方向更直接
提高稳定性：限制数值范围，减少梯度爆炸 / 消失风险
支持饱和激活函数：数据分布在非饱和区，使 Sigmoid/Tanh 等函数仍可有效使用

（3）批归一化（Batch Normalization, BN）

批归一化是归一化技术在深度学习中的具体应用，对每个训练批次数据执行标准化操作。对于输入的 mini-batch $B = \{x_1, x_2, ..., x_m\}$ ，BN 层的计算流程为：

计算批次均值：
$\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i$
计算批次方差：
$\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2$
标准化处理：
$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
引入可学习参数进行缩放和平移：
$y_i = \gamma \hat{x}_i + \beta$

其中：

$\gamma$ 和 $\beta$ 是可训练的参数，分别控制缩放和偏移
当 $\gamma = \sqrt{\sigma_B^2}$ 且 $\beta = \mu_B$ 时，可恢复原始输入分布

BN 层的优势在于：

减少内部协变量偏移：降低各层输入分布的变化
正则化效果：引入的随机噪声有助于泛化
允许更高学习率：提高训练速度和稳定性

BN层通过对数据进行归一化，避免数据出现很大数量级差，防止了小的改变通过多层网络传播被放大的问题，可以有效防止梯度消失和梯度爆炸。

在神经网络中，BN 层通常位于卷积层或全连接层之后、激活函数之前，形成如下结构：

4. 激活函数

激活层的核心作用是引入非线性因素，提升神经网络的表达能力。若无激活函数，无论网络层数多少，其输出均为输入的线性组合，无法有效解决复杂问题。以下是几种常见激活函数的数学表达、特性及优缺点分析：

1. Sigmoid 激活函数

数学表达式： $\sigma(x) = \frac{1}{1 + e^{-x}}$

特性：

将输入值映射到 (0,1) 区间： $\lim_{x \to -\infty} \sigma(x) = 0, \quad \lim_{x \to +\infty} \sigma(x) = 1$
导数表达式： $\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x))$

缺点：

梯度消失：当输入值过大或过小时，导数趋近于 0，导致反向传播时梯度衰减。
- 例如，当 x = 5 时， $\sigma(5) \approx 0.993\), \(\sigma'(5) \approx 0.007$ 。
非零均值输出：输出恒为正数，导致权重更新只能沿同一方向，收敛缓慢。
计算效率低：涉及指数运算，计算成本较高。

2. Tanh 激活函数

数学表达式： $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} = 2\sigma(2x) - 1$

特性：

将输入值映射到 (-1,1) 区间，解决了 Sigmoid 的非零均值问题： $\lim_{x \to -\infty} \tanh(x) = -1, \quad \lim_{x \to +\infty} \tanh(x) = 1$
导数表达式： $\tanh'(x) = 1 - \tanh^2(x)$

缺点：

仍存在梯度消失问题：当 |x| 很大时，导数趋近于 0。
计算复杂度高：需多次指数运算。

3. ReLU 激活函数

数学表达式：

$\text{ReLU}(x) = \max(0, x) = \begin{cases} x, & \text{if } x > 0 \\ 0, & \text{if } x \leq 0 \end{cases}$

特性：

单侧抑制：当输入为负时，输出直接置 0，使网络具有稀疏性。
线性激活：当输入为正时，导数恒为 1，避免梯度消失： $\text{ReLU}'(x) = \begin{cases} 1, & \text{if } x > 0 \\ 0, & \text{if } x < 0 \end{cases}$ （在 x=0 处导数未定义，实际实现中通常取 0 或 1）

优点：

计算高效：只需比较输入与 0 的大小，无需指数运算。
缓解梯度消失：正数区域导数恒为 1，保证梯度稳定传播。
网络稀疏性：约 50% 的神经元被抑制，减少参数依赖，缓解过拟合。

缺点：

死亡 ReLU 问题：若某个神经元的输入始终为负，其权重将无法更新（“死亡”）。
非零均值输出：与 Sigmoid 类似，输出偏向正数。

4. ReLU 变体（以 Leaky ReLU 为例）

数学表达式：

$\text{Leaky ReLU}(x) = \begin{cases} x, & \text{if } x > 0 \\ \alpha x, & \text{if } x \leq 0 \end{cases} \quad (\alpha \text{ Always take 0.01})$

特性：

负数区域保留小梯度（ $\alpha$ ），避免神经元 “死亡”： $\text{Leaky ReLU}'(x) = \begin{cases} 1, & \text{if } x > 0 \\ \alpha, & \text{if } x < 0 \end{cases}$

优点：

解决死亡 ReLU 问题，同时保留 ReLU 的计算高效性。

其他变体：

PReLU： $\alpha$ 作为可学习参数，自适应调整负数区域斜率。
ELU：在负数区域引入指数项，使输出更接近零均值。
SELU：具有自归一化特性，保证网络激活值的均值和方差稳定。

总结对比

激活函数	表达式	输出范围	梯度消失	非零均值	计算复杂度
Sigmoid	$1/(1+e^{-x})$	$(0,1)$	严重	是	高
Tanh	$\tanh(x)$	$(-1,1)$	严重	否	高
ReLU	$\max(0,x)$	$(0,+\infty)$	缓解	是	低
Leaky ReLU	$\max(\alpha x, x)$	$(-\infty,+\infty)$	缓解	是	低

5. Flatten 层：多维特征到一维向量的映射

Flatten 层是深度学习中常用的一种操作，主要用于将多维的输入数据 "压平" 为一维向量。这种操作通常出现在卷积神经网络 (CNN) 中，用于连接卷积层和全连接层。

数学原理

假设输入数据是一个多维张量，其维度为：

$\text{Input dimension} = (N, C, H, W)$

其中：

N 是批量大小 (batch size)
C 是通道数 (channel)
H 和 W 分别是特征图的高度和宽度

Flatten 操作会保持批量大小 N 不变，而将每个样本的多维特征 $(C, H, W)$ 展平为一维向量，其长度为：

$\text{Output vector length} = C \times H \times W$

因此，Flatten 操作后的输出维度为：

$\text{Output dimension} = (N, C \times H \times W)$

公式表示

对于输入张量 X，其中 $X \in \mathbb{R}^{N \times C \times H \times W}$ ，Flatten 操作可以表示为：

$\text{Flatten}(X)_{i,j} = X_{i, \lfloor j/(H \times W) \rfloor, \lfloor (j \mod (H \times W))/W \rfloor, j \mod W}$

其中：

i 是样本索引，范围从 0 到 (N-1)
j 是展平后的向量索引，范围从 0 到 $C \times H \times W - 1$
$\lfloor \cdot \rfloor$ 表示向下取整操作
$\mod$ 表示取余操作

示例

假设输入是一个形状为 (2, 3, 4, 4) 的张量，即：

批量大小 (N = 2)
通道数 (C = 3)
高度 (H = 4)
宽度 (W = 4)

每个样本的特征图大小为 $3 \times 4 \times 4 = 48$ ，因此 Flatten 后的输出形状为 (2, 48)。

具体来说，对于第一个样本 (i=0)，其三维特征 $(C=3, H=4, W=4)$ 会被展平为一个长度为 48 的一维向量，向量中的每个元素按照通道、行、列的顺序排列。

Flatten 层在 CNN 中的作用是将卷积提取的空间特征转换为适合全连接层处理的格式，从而实现从特征提取到分类或回归的过渡。

6. 全连接层

全连接层（Fully Connected Layer）在深度神经网络中扮演着 "特征整合器" 与 "分类器" 的角色，其核心是通过线性变换与非线性激活实现从特征空间到标签空间的映射。下面从数学原理、层级结构与作用三个方面进行解析，并给出公式表达。

1. 全连接层的数学表达

1.1 单层全连接的线性变换

全连接层的本质是一个线性变换，将输入向量 x 映射为输出向量 y:

$(y = Wx + b)$

其中：

$x \in \mathbb{R}^{n}$ 是输入向量（上一层的输出）
$W \in \mathbb{R}^{m \times n}$ 是权重矩阵
$b \in \mathbb{R}^{m}$ 是偏置向量
$y \in \mathbb{R}^{m}$ 是输出向量

1.2 多层全连接的级联结构

对于 L 层全连接网络，第 l 层的输出可表示为：

$h^{(l)} = f(W^{(l)}h^{(l-1)} + b^{(l)})$

其中：

$h^{(l)}$ 是第 l 层的输出（激活值）
$W^{(l)}$ 和 $b^{(l)}$ 分别是第 l 层的权重和偏置
$f(\cdot)$ 是非线性激活函数（如 ReLU、Sigmoid 等）

1.3 激活函数的引入

激活函数为网络引入非线性能力，常用的 ReLU 函数形式为：

$f(z) = \max(0, z)$

2. 全连接层的层级结构与特征组合

2.1 特征组合过程

假设第一层全连接层接收来自卷积层的局部特征 $x_1, x_2, ..., x_n$ ，其输出可表示为：

$h_1 = f(W_1x + b_1)$

其中 $W_1$ 的每一行对应一个特征组合模式，例如：

$h_{1i} = f\left(\sum_{j=1}^{n} w_{1ij}x_j + b_{1i}\right)$

这一过程实现了对局部特征的加权组合，激活符合特征存在的神经元。

2.2 多层特征抽象

第二层全连接层接收第一层的输出 $h_1$ ，进一步组合得到更高级的抽象特征：

$h_2 = f(W_2h_1 + b_2)$

通过多层级联，网络可以学习到从局部特征（如边缘、纹理）到整体特征（如猫头、猫身体）的层级表示。

3 全连接层的作用解析

3.1 特征空间映射

全连接层将卷积层和池化层学到的分布式特征表示（隐层特征空间）映射到样本标记空间：

$\text{Input image} \xrightarrow[\text{convolution/pooling}]{} \text{Hidden layer features} \xrightarrow[\text{Fully connected}]{} \text{Category score}$