题目:YOLO-World: Real-Time Open-Vocabulary Object Detection
YOLO-World: 实时开放词汇目标检测
作者:Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan
摘要
You Only Look Once (YOLO) 系列检测器已成为高效实用工具的代表。然而,它们对预定义和训练过的对象类别的依赖限制了在开放场景中的应用。为了解决这一限制,我们引入了 YOLO-World,这是一种通过视觉-语言建模和大规模数据集上的预训练来增强 YOLO 开放词汇检测能力的创新方法。具体来说,我们提出了一个新的可重参数化视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法在零样本检测广泛对象方面表现出色,效率极高。在具有挑战性