深度神经网络图像识别技术的发展与应用
立即解锁
发布时间: 2025-08-30 00:48:20 阅读量: 6 订阅数: 18 AIGC 

### 深度神经网络图像识别技术的发展与应用
#### 1. ImageNet竞赛推动方法发展
自2010年起,每年都会举办一场竞赛,不同研究团队可将其图像识别软件应用于ImageNet数据。ImageNet有1000个目标类别,约120万张图像的训练集和5万张图像的验证集,还有10万张图像的测试集,每个类别至少有500张训练图像,能很好地覆盖类别内的变化。
图像分类的质量通过top - 5错误率评估,即测试集中标注的“真实”目标类别是否在预测的前五个类别中。图像会被缩放到256×256像素,彩色图像的每个像素有红、绿、蓝三个RGB值,分别组合成矩阵,这三个矩阵构成图像分类的输入张量。CNN的第一个卷积层会进行修改,定义三个内核分别应用于输入矩阵,结果汇总存储在结果矩阵中,内核每次移动两个位置(步长为2),输入矩阵外的位置赋值为0。
例如,在MNIST数字分类中,训练后的CNN应用时,丢弃概率设为0.0。第一层内核感受野大小为3×3,生成32个特征,多为水平或垂直边缘;第二层内核联合感受野大小为5×5,生成64个特征,基于这些特征进行数字的最终分类,可观察到垂直、水平、对角线和其他子模式。Yann LeCun在CNN的发展中起到了决定性作用,他开发了卷积神经网络的学习方法,其LeNet数字识别模型成为所有其他图像识别CNN的原型。
#### 2. 先进的卷积神经网络
- **AlexNet成功利用GPU进行训练**:2012年,AlexNet在ImageNet分类竞赛中取得突破。它共有五层CNN层、三层MaxPool层和三层全连接层,共6000万个参数。首次使用修正线性单元ReLU作为激活函数,并使用丢弃法进行有效正则化,在两个GPU上进行训练,与前一年相比,top - 5错误率降低了36%,降至16.4%。2013年的获胜者使用AlexNet架构,仅修改了一些超参数;2014年的获胜者构建了有22层的GoogLeNet,引入了具有多个并行卷积层和不同大小感受野的模块(inception模块)。
- **ResNet通过残差连接促进优化**:增加卷积层数量不一定能提高性能,如56层的CNN在训练集和测试集上的误差比20层的CNN更高,这并非过拟合问题,而是优化过程在处理大量层时难以找到最优解。ResNet采用残差连接,将较低层的隐藏向量向上复制,构建捷径或旁路,使激活能够跳过几个卷积层。如果卷积层的参数接近零,隐藏向量通过旁路直接复制,网络实际上减少了层数,便于初始优化。2015年的获胜网络ResNet采用这种方案,每个残差块有两个3×3卷积层,定期将内核数量加倍,后续内核步长加倍,使用批量归一化和L2正则化避免过拟合。152层的ResNet在2015年ImageNet竞赛中top - 5错误率达到3.6%,优于人类分类器的5.1%准确率,有6020万个参数。不过,ResNet需要巨大的计算能力,训练时间较长,但使用多个GPU并行可大大减少训练时间。
- **DenseNet采用额外的残差连接**:DenseNet进一步扩展了残差连接模式,每层接收所有先前层的输入,输入进行拼接以避免特征重叠。由于池化会改变特征分辨率,层被划分为不同的密集块。每层包
0
0
复制全文
相关推荐










