Rethinking the Inception Architecture for Computer Vision
简述:
虽然增加的模型大小和计算成本能够提高网络的性能(如:VGG等),但其计算量过大,无法在对内存或计算资源有限制的场合处理数据。GoogLeNet 在设计之初就考虑了内存和计算资源,本文作者通过适当的分解卷积和积极的正则化来尽可能地有效利用增加的计算。实验证明,设计的网络模型取得了良好的实验效果(3.5% top-5和17.3% top-1)。
问题Or相关工作:
对比AlexNet 和 VGG ,GoogLeNet参数更少,更适合于大数据的处理。由于 Inception 架构的复杂性,使其网络模型难以改变。原来论文也没有清晰的描述其设计准则。本文主要提出了一些设计原理和优化思路。
General Design Principles:
- 避免特征表示瓶颈,尤其是在网络的前面。怎么知道有瓶颈?前馈网络可以通过一个无环图来表示,该图定义的是从输入层到分类器或回归器的信息流动。图论有一个cut的概念,对于分开输入输出的一个cut,我们可以评估有多少信息经过这个cut。我们应避免严重压缩导致的瓶颈。
- 更高维度的表示在网络中更容易局部处理。在卷积网络中逐步增加非线性激活响应可以解耦合更多的特征,那么网络就会训练的更快。
- 空间聚合可以在较低维度嵌入上完成,而不会在表示能力上造成许多或任何损失。
- 平衡网络的宽度和深度。
模型:
GoogLeNet 网络优异的性能主要源于大量使用降维处理。这种降维处理可以看做通过分解卷积来加快计算速度的手段。在一个计算机视觉网络中,相邻激活响应的输出是高度相关的,所以在聚合前降低这