DeepLab系列

最新推荐文章于 2024-11-29 12:47:50 发布

原创最新推荐文章于 2024-11-29 12:47:50 发布 · 797 阅读

6 ·

CC 4.0 BY-SA版权

深度学习基础s 专栏收录该内容

64 篇文章

订阅专栏

本文深入解析了DeepLabv3+模型结构，探讨了其编码器与解码器的作用，详细介绍了空洞卷积在语义分割中的优势，以及特征尺寸变化对分割精度的影响。此外，还讲解了空洞空间金字塔池化技术，并提供了参考文献和代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DeepLab系列

1. 模型结构
- 1.1 编码器
- 1.2 解码器
2. 卷积
- 2.1 空洞卷积在语义分割中的作用
- 2.2 特征尺寸变化对语义分割的影响
3.空洞空间金字塔池化
4. 参考

1. 模型结构

DeepLabv3+是在DeepLabv3的基础上扩展出的一个编解码器结构。
DeepLabv3+的编解码器结构

1.1 编码器

编码器是Deeplabv3模型的logits前的部分。

1.2 解码器

让空洞卷积提取更稠密的特征有助于恢复边界细节，但计算量会剧增，所以需要解码器。单纯使用上采样的解码器不一定能恢复物体边界细节，所以重新设计了解码器。图中21是指PASCAL VOC 2012数据集包括背景共21类标签。

v3+的表1说明解码器中1×1的卷积通道应为48，表2说明上采样前应该使用两个[3×3×256]的卷积。
表1和表2

2. 卷积

几种卷积的介绍在这里。

2.1 空洞卷积在语义分割中的作用

空洞卷积有利于深层网络的性能提升。全卷积网络FCN一般用于结构化任务（输出尺寸和输入尺寸相等，如分割、检测、识别、重建）。不像分类任务只需要深层的抽象特征，浅层的具体特征对结构化任务非常重要，所以FCN一般不使用池化层。

对分类任务来说，只需要知道有哪些特征就可以区分类别。但对分割任务来说，不仅要知道有哪些特征，还要知道特征在哪，所以结构信息不能丢失。

使用常规卷积的FCN为了得到不同尺度的特征，需要使用步长大于1的卷积改变特征图尺寸，特征图尺寸的变化意味着结构信息的丢失。而使用不同空洞率的空洞卷积可以提取不同尺度的特征而不改变特征图的尺寸。如下图，空洞卷积使后6层特征图尺寸没有减小。
带空洞卷积和不带空洞卷积的串联模型

2.2 特征尺寸变化对语义分割的影响

定义 $output\_stride=原图与特征图的边长比$ 。下表说明 $m I O U$ 随着特征图尺寸的减小而降低。
连续跨步对mIOU的影响
虽然 $output\_stride=8$ 时效果更好，但大特征图需要更多的内存和计算资源。所以DeepLab的 $output\_stride=16$ 。