卷积和残差神经网络:原理与设计实践
1. 早期SOTA卷积神经网络设计模式概述
早期SOTA(State-of-the-Art,最先进)卷积神经网络有三种重要的设计模式,按其发展顺序依次为:
- ConvNet
- VGG
- 残差网络
这些设计模式都为现代卷积神经网络(CNN)的设计做出了贡献。ConvNet以AlexNet为早期示例,引入了通过池化交替进行特征提取和降维的模式,并随着网络层数加深逐步增加滤波器数量。VGG将卷积操作分组为一个或多个卷积块,并将池化降维操作延迟到块的末尾。残差网络进一步将块分组为组,将降维操作延迟到组的末尾,同时使用特征池化和池化进行降维,并引入了分支路径(恒等链接)的概念,以实现块之间的特征重用。
2. 卷积神经网络基础
早期卷积神经网络可分为两部分:前端和后端。后端是深度神经网络(DNN),而“卷积神经网络”这个名称源于前端,即卷积层。前端作为预处理器,对图像数据进行预处理,使其适合DNN进行分类学习,同时完成特征学习任务。
2.1 为何在图像模型中使用CNN而非DNN
当处理大尺寸图像时,DNN所需更新和学习的权重数量会变得非常庞大,计算成本过高。例如,一个1MB的图像,每个像素用一个字节表示,就有100万个像素。若输入层有1024个节点,仅输入层就需要更新和学习超过10亿个权重(100万×1024)。相比之下,MNIST示例中784个像素×512个节点的输入层,只需学习40万个权重,计算量小得多。
2.2 下采样(调整大小)
为解决参数过多的问题,可通过下采样降低图像分辨率。但过度降低分辨率会导致图