论文地址:YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO-World通过开放词汇检测功能增强了YOLO目标检测。
一、摘要
You Only Look Once (YOLO) 系列检测对预定义和训练对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一局限性,我们推出了 YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集上的预训练,增强了 YOLO 的开放词汇检测功能。具体而言,我们提出了一种新的可重新参数化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零样本(zero shot)、高效率检测各种物体。在具有挑战性的 LVIS 数据集上,YOLO-World 在 V100 上以 52.0 FPS 实现了 35.4 AP,在准确性和速度方面都优于许多最先进的方法。此外,经过微调的 YOLO-World 在多个下游任务上取得了出色的性能,包括对象检测和开放词汇实例分割。
二、主要贡献
- YOLO-World 通过开放词汇检测功能增强了 YOLO 目标检测。
- 引入RepVL-PAN和区域文本对比丢失,促进视觉和语言信息之间的交互。
- YOLO-World在zero-shot目标检测方面实现了高效率,并在精度和速度方面优于最先进的方法。
- 在对象检测、开放词汇实例分割等下游任务中