计算机视觉中的图像分割与生成技术
立即解锁
发布时间: 2025-09-01 00:52:27 阅读量: 2 订阅数: 48 AIGC 

### 计算机视觉中的图像分割与生成技术
#### 1. 图像分割简介
图像分割是为图像的每个像素分配一个类别标签(如人、自行车或动物)的过程。可以将其视为像素级的分类,与将整个图像归为一个标签不同,我们会分别对每个像素进行分类。图像分割操作的输出称为分割掩码,它是一个与原始输入图像尺寸相同的张量,但每个像素由其所属的对象类别表示,而非颜色。
图像分割主要分为两种类型:
- **语义分割**:为每个像素分配一个类别,但不区分对象实例。例如,在语义分割掩码中,每辆单独车辆的像素具有相同的值,它能告诉我们某个像素属于车辆,但无法区分两辆不同的车辆。
- **实例分割**:为每个像素分配一个类别,并区分对象实例。例如,在实例分割掩码中,每辆车都被分割为一个单独的对象。
训练分割算法需要一种特殊类型的真实数据,其中每个图像的标签是该图像的分割版本。最简单的图像分割方法是使用滑动窗口技术,即使用常规分类器,以步长为 1 向任一方向滑动。在获得某个位置的预测后,取输入区域中间的像素并将其分配到预测的类别。但由于图像中的像素数量庞大,这种方法非常慢。幸运的是,有更快、更准确的算法,下面将详细介绍。
#### 2. 基于 U-Net 的语义分割
U-Net 是一种全卷积网络(FCN),因其仅包含卷积层且输出不使用全连接层而得名。FCN 将整个图像作为输入,并在一次传递中输出其分割图。
U-Net 模型可分为两个虚拟组件:
- **编码器**:网络的第一部分(U 的左半部分)类似于常规的卷积神经网络(CNN),但末尾没有全连接层。其作用是学习输入图像的高度抽象表示。输入图像可以是任意大小,只要每个最大池化操作的输入特征图具有偶数维度,否则输出分割掩码会失真。默认输入大小为 572×572。编码器由四个相同的块组成,每个块包含两个连续的 3×3 跨通道卷积、可选的批量归一化、ReLU 激活和 2×2 最大池化层。每次下采样步骤将特征图数量翻倍,最终编码器卷积以 1024 个 28×28 的特征图结束。
- **解码器**:网络的第二部分(U 的右半部分)与编码器对称。解码器获取最内层的 28×28 编码器特征图,同时进行上采样并将其转换为 388×388 的分割图。它包含四个相同的上采样块:
- 上采样使用 2×2 转置跨通道卷积,步长为 2。
- 每个上采样步骤的输出与相应编码器步骤裁剪后的高分辨率特征图连接。裁剪是必要的,因为在每个无填充的编码器和解码器卷积中会丢失边界像素。
- 每个转置卷积后接两个常规卷积,以平滑扩展的表示。
- 上采样步骤将特征图数量减半,最终输出使用 1×1 瓶颈卷积将 64 分量的特征图张量映射到所需的类别数量。
U-Net 的输出是分割掩码每个像素上的 softmax,即输出包含与像素数量相同的独立 softmax 操作。一个像素的 softmax 输出决定该像素的类别。U-Net 像常规分类网络一样进行训练,但其成本函数是所有像素上 softmax 输出的交叉熵损失的组合。由于网络的无填充卷积,输出分割图比输入图像小(388 对比 572),但它与输入图像是一对一的比例,仅覆盖输入图块的中心部分。无填充卷积可避免在分割图的边界产生噪声伪影,使得可以使用重叠图块策略对任意大尺寸的图像进行分割。
#### 3. 基于 Mask R-CNN 的实例分割
Mask R-CNN 是 Faster R-CNN 用于实例分割的扩展。Faster R-CNN 为每个候选对象输出两个信息:边界框参数和类别标签。而 Mask R-CNN 在此基础上增加了第三个输出,即一个为每个感兴趣区域(RoI)生成二进制分割掩码的全卷积网络(FCN)。
分割和检测路径都使用区域提议网络(RPN)的 RoI 预测,但彼此独立且并行。分割路径为每个 RoI 生成一个 m×m 的分割掩码,由于检测路径处理对象的分类,分割掩码是二进制的,且与对象类别无关。分割后的像素会自动分配到检测路径产生的类别。与 U-Net 等其他算法不同,U-Net 的分割与分类相结合,且在每个像素上应用单独的 softmax。在训练或推理时,只考虑与分类路径预测对象相关的掩码,其余的将被丢弃。
Mask R-CNN 用更精确的 RoI 对齐层取代了 RoI 最大池化操作。RPN 输出锚框中心及其高度和宽度作为四个浮点数,RoI 池化层将它们转换为整数特征图单元格坐标(量化),此外,将 RoI 划分为 H×W 个箱(与 RoI 池化区域大小相同)也涉及量化。这两个量化级别可能导致 RoI 与提取的特征之间出现不对齐。RoI 对齐操作通过对相邻单元格进行双线性插值来计算 RoI 单元格的值,因此比 RoI 池化更准确。
在训练时,如果 RoI 与真实框的交并比(IoU)至少为 0.5,则将其分配为正标签,否则为负标签。掩码目标是 RoI 与其关联的真实掩码的交集,只有正 RoI 参与分割路径的训练。
#### 4. 使用 P
0
0
复制全文
相关推荐









