
自
AlexNet
以来的图像分类和分割网络总结
在毕业设计结束之际,怀着一份迫切心态我把自 2012 年以来图像分类和分
割的几篇经典论文又重新温习了一遍,解决了不少疑惑,也弥补了一直以来没有
系统整理深度学习网络在
CV
方面应用的遗憾。在此记下
AlexNet
等八个经典网
络的架构、创新点等,以供参考。
一.AlexNet
论文:《
ImageNet Classification with Deep Convolutional Neural Networks
》
AlexNet 是 Hinton 的学生 Alex 在 2012 年提出的可用于图像分类的网络,它
是现代 CNN 的开山大作。其基本结构如下所示:
论文中提出的七层结构在
2012
年的
ImageNet
的荣膺冠军。七层网络中包括
5 层卷积层和 2 层全连接层。这个具有划时代意义的网络让卷积神经网络和 GPU
都火了一把。它的贡献点和创新点主要由以下几个方面:1.首次提出了 Relu 激
活函数,其训练效率比常用的
tanh
激活函数更高;
2.
将网络放在了两块独立的
GPU 上进行训练,在训练某些特定的层(如第 3 层),GPU 的输出信息可以进行
交互。3.提出了 LRN(局部相应归一化)。这种结构在之后的网络结构中发现并没
有起到太大的作用。因此已逐渐被弃用,其使用初衷是模仿了生物机理中兴奋神
经元会抑制周围神经元的特性,4.在防止过拟合中,它使用了 dropout,即随机
性地丢弃一部分神经元。被丢弃的神经元不参与网络的前向计算和后向传播过程。
二.ZFNet
论文:《Visualizing and Understanding Convolutional Networks》
紧接着,在
2013
年
Lecun
的学生、纽约大学的两位学者提出了
ZFNet,
也在
当年的 ImageNet 中获得冠军。在网络结构上它和 AlexNet 基本一致,未做大的
改动都是 5 层卷积层和两层全连接层。