YOLO-World:实时开放词汇目标检测

YOLO-World通过视觉语言建模和预训练,增强了YOLO的目标检测能力,特别在零样本和高效率检测方面超越现有方法。其创新包括RepVL-PAN和区域文本对比损失,实现在LVIS数据集上的优秀性能和下游任务中的广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址:YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World通过开放词汇检测功能增强了YOLO目标检测。

一、摘要

You Only Look Once (YOLO) 系列检测对预定义和训练对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一局限性,我们推出了 YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集上的预训练,增强了 YOLO 的开放词汇检测功能。具体而言,我们提出了一种新的可重新参数化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零样本(zero shot)、高效率检测各种物体。在具有挑战性的 LVIS 数据集上,YOLO-World 在 V100 上以 52.0 FPS 实现了 35.4 AP,在准确性和速度方面都优于许多最先进的方法。此外,经过微调的 YOLO-World 在多个下游任务上取得了出色的性能,包括对象检测和开放词汇实例分割。

二、主要贡献

  • YOLO-World 通过开放词汇检测功能增强了 YOLO 目标检测。
  • 引入RepVL-PAN和区域文本对比丢失,促进视觉和语言信息之间的交互。
  • YOLO-World在zero-shot目标检测方面实现了高效率,并在精度和速度方面优于最先进的方法。
  • 在对象检测、开放词汇实例分割等下游任务中
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值