CNN卷积神经网络详解

最新推荐文章于 2025-07-08 16:16:53 发布

原创

最新推荐文章于 2025-07-08 16:16:53 发布 · 2.7k 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #人工智能 #神经网络

本文详细介绍了卷积神经网络的基础构成，包括卷积层、池化层、全连接层，以及AlexNet模型的示例和代码实现。重点阐述了卷积核、步长和边界像素填充等关键概念，并展示了CNN在图像分类、语音识别、自然语言处理和自动驾驶等领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、卷积神经网络示例
二、卷积层
二、池化层
三、全连接层
四、AlexNet模型示例
五、AlexNet代码示例

前言

卷积神经网络（CNN）是一种深度学习模型，广泛应用于图像处理、语音识别、自然语言处理等领域。

图像分类和识别：CNN在图像分类和识别方面的应用是最为广泛的。通过训练，CNN能够学习到从图像中提取特征的能力，从而实现对图像的分类和识别。例如，在人脸识别、物体检测、车牌识别等领域，CNN都取得了显著的效果。
语音识别：CNN也可以应用于语音识别领域，通过对语音信号的卷积和池化处理，提取出语音的特征表示，从而实现对语音的分类和识别。
自然语言处理：CNN在自然语言处理领域也有广泛应用，例如文本分类、情感分析、命名实体识别等。通过将文本转换为特征向量，CNN能够学习到文本的特征表示，从而实现对文本的分类和识别。
自动驾驶：CNN在自动驾驶领域的应用主要是通过对图像的处理和分析，实现对车辆和行人的检测和跟踪，从而辅助自动驾驶系统进行决策和控制。
机器人视觉：CNN在机器人视觉领域的应用主要是通过对图像的处理和分析，实现机器人的导航、避障等功能。
超分辨率图像重建：CNN可以用于超分辨率图像重建，通过对低分辨率图像的处理和分析，重建出高分辨率图像。
视频分析：CNN在视频分析领域的应用主要是通过对视频的处理和分析，实现视频分类、目标检测、行为识别等功能。
金融领域：CNN在金融领域的应用主要是通过对金融数据的处理和分析，实现股票预测、风险管理等功能。

一、卷积神经网络示例

卷积神经网络（CNN）的基本组成包括输入层、卷积层、非线性激活函数、池化层和全连接层等部分。如下图所示，

在这里插入图片描述

输入层：输入层负责接收原始的输入数据，例如图像、文本等。在图像处理中，输入层通常是将图像转换为像素矩阵的形式。
卷积层：卷积层是CNN的核心部分，通过卷积运算对输入数据进行特征提取。每个卷积层包含若干个卷积核，每个卷积核都独立地对输入数据进行卷积操作，提取局部特征。卷积核的参数是通过训练自动学习得到的。
池化层：池化层对卷积层的输出进行下采样，从而减少数据的维度和计算量，同时保留重要特征。池化操作可以是最大池化、平均池化等形式。
全连接层：全连接层通常位于CNN的末端，负责将前面层次提取到的特征进行整合和分类。全连接层的神经元与前一层的所有神经元都相连，根据前一层的输出计算输出值。
非线性激活函数：激活函数引入了非线性因素，使得CNN能够更好地学习和模拟复杂的特征。常用的激活函数有ReLU、Sigmoid和Tanh等。
可以把它想象成为一个图片分类任务，比如你想对手写数字图片进行识别，那么这里的输入便会是一个图片，经过一系列的网络最后经过激活函数softmax层进行输出，softmax层会根据你的训练集的类别输出一个概率，比如这里我们需要识别0-9这10个数字，那么就会输出10个分别为每个类别的概率。

二、卷积层

1.卷积核

在卷积神经网络（CNN）中，卷积核被用作过滤器，以提取图像的局部特征。
在这里插入图片描述
如图所示，输入的是原始图像，每一个数字都代表像素，中间的是卷积核，图中显示的是卷积核的一次工作过程，通过卷积核的计算输出了一个结果，计算方式就是将对应位置的数据相乘然后相加，遵循的原则是卷积核从左往右移动，在从上往下移动。如下图所示：
在这里插入图片描述
如果我们的原始输入数据都是图像，那么我们定义的卷积核窗口的宽度和高度要比输入图像的宽度和高度小，较常用的卷积核窗口的宽度和高度大小是3x3和5x5。在定义卷积核的深度时，只要保证与输入图像的色彩通道一致就可以了，如果输入图像是3个色彩通道的，那么卷积核的深度就是3:如果输入图像是单色彩通道的，那么卷积核的深度就是1，以此类推，如图所示为单色彩通道的输入图像的卷积过程。

2.padding

下面，根据我们定义的卷积核步长对卷积核窗口进行滑动。卷积核的步长其实就是卷积核窗口每次滑动经过的图像上的像素点数量，如图所示是一个步长为2的卷积核经过一次滑动后窗口位置发生的变化。
在这里插入图片描述
如果我们仔细观察,则还会发现在图中输入图像的最外层多了一圈全为0的像素这其实是一种用于提升卷积效果的边界像素填充方式。我们在对输入图像进行卷积之前，有两种边界像素填充方式可以选择，分别是Same和Valid。Valid方式就是直接对输入图像进行卷积，不对输入图像进行任何前期处理和像素填充，这种方式的缺点是可能会导致图像中的部分像素点不能被滑动窗口捕捉;Same方式是在输入图像的最外层加上指定层数的值全为0的像素边界，这样做是为了让输入图像的全部像素都能被滑动窗口捕捉。

valid意味着不做卷积，所以如果你有一个nxn的图像和一个fxf的卷积核，那么你的输出就是(n-f+1)x(n-f+1)。

当使用same做填充时，你的输出就会是(n+2p-f+1)x(n+2p-f+1)。

3.步长（stride）

步长（stride）在卷积神经网络中是指卷积核在图像上滑动的距离。在卷积操作中，步长决定了卷积核每次移动的像素数量。通过调整步长，可以在一定程度上控制特征提取的速度和精度。较小的步长会导致卷积核在图像上滑动较慢，提取的特征更加精细，但会增加计算的复杂度和时间成本。较大的步长则会使卷积核在图像上快速滑动，减少计算量和时间成本，但可能会降低特征提取的精度。
在这里插入图片描述
通过对卷积过程的计算，我们可以总结出一个通用公式，在本书中我们统一把它叫作卷积通用公式，用于计算输入图像经过一轮卷积操作后的输出图像的宽度和高度的参数，公式如下:

其中，通用公式中的即和H分别表示图像的宽度(Weight)和高度(Height)的值;下标 input 表示输入图像的相关参数;下标ouiput表示输出的图像的相关参数:下标filter表示卷积核的相关参数;S表示卷积核的步长:P(是Padding的缩写)表示在图像边缘增加的边界像素层数，如果图像边界像素填充方式选择的是Same模式，那么P的值就等于图像增加的边界层数，如果选择的是Valid模式，那么P=0。
下面看一个具体的实例。输入一个7x7x1的图像数据，卷积核窗口为3x3x1，输入图像的最外层使用了一层边界像素填充，卷积核的步长stride为1，然后根据公式就能够计算出最后输出特征图的宽度和高度都是7.

4.三维卷积

我们已经了解了单通道的卷积操作过程，但是在实际应用中一般很少处理色彩通道只有一个的输入图像，所以接下来看看如何对三个色彩通道的输入图像进行卷积操作，如图：
在这里插入图片描述
在卷积过程中我们还加入了一个值为1的偏置，其实整个计算过程和之前的单通道的卷积过程大同小异，我们可以将三通道的卷积过程看作三个独立的单通道卷积过程，最后将三个独立的单通道卷积过程的结果进行相加，就得到了最后的输出结果。

卷积核的通道数等于输入图像的通道数
卷积核的个数等于输出通道

二、池化层

卷积神经网络中的池化层可以被看作卷积神经网络中的一种提取输入数据的核心特征的方式，不仅实现了对原始数据的压缩，还大量减少了参与模型计算的参数，从某种意义上提升了计算效率。其中，最常被用到的池化层方法是平均池化层和最大池化层，池化层处理的输入数据在一般情况下是经过卷积操作之后生成的特征图。如图所示是一个最大池化层的操作过程,平均池化同理。
在这里插入图片描述
池化层不仅能够最大限度地提取输入的特征图的核心特征，还能够对输入的特征图进行压缩。

三、全连接层

全连接层的主要作用是将输入图像在经过卷积和池化操作后提取的特征进行压缩，并且根据压缩的特征完成模型的分类功能。如图所示是一个全连接层的简化流程。
在这里插入图片描述
其实全连接层的计算比卷积层和池化层更简单，如图所示的输入就是我们通过卷积层和池化层提取的输入图像的核心特征，与全连接层中定义的权重参数相乘，最后被压缩成仅有的10个输出参数，这10个输出参数其实已经是一个分类的结果，再经过激活函数的进一步处理，就能让我们的分类预测结果更明显。将10个参数输入到Softmax激活函数中，激活函数的输出结果就是模型预测的输入图像对应各个类别的可能性值。