相关资料
代码:https://github.com/valeoai/ZS3
论文:Zero-Shot Semantic Segmentation
摘要
语义分割模型在扩展到大量对象类的能力方面受到限制。在本文中,我们引入了零采样语义分割的新任务:用零训练样本学习从未见过的对象类别的逐像素分类器。为此,我们提出了一种新的架构,ZS3Net,将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合。通过这种方式,ZS3Net解决了在测试时面对可见和未见类别的像素分类任务(所谓的“广义”零射击分类)。性能通过一个自我训练步骤进一步提高,该步骤依赖于对未见过的类的像素进行自动伪标记。
引言
分割方法主要是有监督的,但人们对使用图像级注释或方框级注释的弱监督分割模型越来越感兴趣。我们在本文中提议研究一个补充学习问题,即在训练过程中部分类别完全缺失。我们的目标是重新设计现有的识别架构,毫不费力地适应这些从未见过的场景和物体类别。在训练过程中不需要人工注释或真实样本,只需要未见过的标签。这种方法通常被称为零镜头学习(ZSL)。
近年来,人们一直在积极研究用于图像分类的 ZSL。早期的方法将其作为一个嵌入问题来处理。它们学习如何将图像数据和类别描述映射到一个共同的空间,在这个空间中,语义相似性转化为空间接近性。
在本文中,我们介绍了零镜头语义分割(ZS3)这一新任务,并提出了一种名为 ZS3Net 的架构来解决这一问题:受最近zero-shot分类方法的启发,我们将用于图像嵌入的骨干深度网</