VGG16模型的设计思想是通过堆叠多个较小的卷积层和池化层来构建深层网络,以增强模型的表达能力。具体来说,VGG16模型由16个卷积层和3个全连接层组成。其中,卷积层主要用于提取输入图像的特征,而全连接层则用于将提取到的特征映射到类别概率上。
VGG16的卷积部分采用了较小的3x3卷积核和步长为1的卷积操作,这种设计方式使得网络可以更深,从而提升了特征的表达能力。在每两个卷积层之间,VGG16还使用了2x2的最大池化层,以减小特征图的尺寸并保留最显著的特征。在最后的卷积层之后,VGG16采用了三个全连接层,每个全连接层都有4096个隐藏单元,最后一个全连接层输出模型的预测结果。
VGG16的一个重要特点是它的模型结构相对简单且易于理解,没有使用复杂的技巧或模块。这种简单性使得VGG16成为深度学习中的经典模型之一,被广泛应用于计算机视觉领域的各种任务,如图像分类、目标检测和图像生成等。
然而,由于VGG16的结构较为庞大,参数量较多,导致模型的训练和推理过程较为耗时。为了解决这个问题,后续的研究工作提出了一些改进版本的VGG模型,如VGG19和VGGNet等,它们在VGG16的基础上进行了一些调整和优化,以提高模型的性能和效率。
特点:在每一次池化之后,经过卷积通道数都会翻倍,可以保留更多的特征。


针对VGG16进行具体分析发现,VGG16共包含:
13个卷积层(Convolutional Layer),分别用conv3-XXX表示 (XXX为输出通道数,3代表kernel_size)
3个全连接层(Fully connected Layer),分别用FC-XXXX表示(XXX为输出神经元个数)
5个池化层(Pool layer),分别用maxpool表示
两组:两个卷积层接上一个池化层,
三组:三个卷积层接一个池化层,
最后是三个全连接层接上一个归一化处理,
这里的每一个卷积层和连接层后都要加上ReLu激活函数。
卷积后的计算公式
输出特征图的宽度=(输入特征图的宽度-卷积核尺寸+2*填充)÷步长+1
输出特征图的高度=(输入特征图的高度-卷积核尺寸+2*填充)÷步长+1
1373

被折叠的 条评论
为什么被折叠?



