YOLO-World

又一种yolo.....

一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。赋能YOLOv8开集检测能力,构建新一代YOLO新标杆

YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色,且效率高。

YOLO-World在大规模视觉语言数据集上进行了预训练,包括Objects 365,GQA,Flickr 30 K和CC 3 M,这使得YOLO-World具有强大的zero-shot开集Capbility与Grounding能力。

在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度上都超过了许多最先进的方法。此外,经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。

1 Introduction

目标检测一直是计算机视觉中一个长期而基础性的挑战,在图像理解、机器人学和自动驾驶车辆等领域有着众多的应用。随着深度神经网络的发展,大量的研究工作在目标检测领域取得了显著的突破。尽管这些方法取得了成功,但它们仍然有限,因为它们只处理具有固定词汇量的目标检测,例如,COCO 数据集中的80个类别。一旦定义并标记了目标类别,训练出的检测器只能检测那些特定的类别,这样就限制了在开放场景中的能力和适用性。

近期的工作探讨了普遍的视觉-语言模型,以解决开集检测问题,通过从语言编码器中提炼词汇知识,例如BERT。然而,这些基于蒸馏的方法受到很大限制,因为训练数据的稀缺性导致词汇多样性有限,例如OV-COCO仅包含48个基本类别。几种方法将目标检测训练重新定义为区域 Level 的视觉-语言预训练,并在大规模上训练开集目标检测器。然而,这些方法在现实场景中的检测仍然存在困难,主要受两方面影响:

  1. 计算负担重

  2. 边缘设备部署复杂

以前的工作已经证明了预训练大型检测器的性能潜力,而预训练小型检测器以赋予它们开放识别能力尚未被探索。

在本文中,作者提出了YOLO-World,旨在实现高效的开集目标检测,并探索大规模预训练方案,以将传统的YOLO检测器提升到一个新的开集世界。与先前方法相比,所提出的YOLO-World在具有高推理速度方面显著高效,易于部署到下游应用中。具体而言,YOLO-World遵循标准的YOLO架构,并利用预训练的CLIP文本编码器来编码输入文本。作者进一步提出了可重参化的视觉-语言路径聚合网络(RepVL-PAN),以更好地连接文本特征和图像特征,实现视觉语义表示。

在推理过程中,可以移除文本编码器,并将文本嵌入重新参数化为RepVL-PAN的权重,以实现高效部署。作者进一步研究了对YOLO检测器的大规模开集预训练方案,通过在大型数据集上对区域文本进行对比学习,将检测数据、定位数据以及图像文本数据统一为区域文本对。预训练的YOLO-World拥有丰富的区域文本对,展示了在大词汇检测方面的强大能力,且更多的数据训练将带来开集能力的更大提升。

此外,作者探索了一种“提示后检测”范式,以进一步改进实际场景中开集目标检测的效率。如图2所示,传统的目标检测器专注于固定词汇(封闭集)的检测,这些词汇是预定义且经过训练的类别。而之前的开集检测器则使用文本编码器对用户提示进行编码,以实现在线词汇的检测目标。值得注意的是,这些方法往往采用带有重型 Backbone 网络的大型检测器,例如Swin-L,以增加开集的容量。

相比之下,“提示后检测”范式(图2(c))首先对用户的提示进行编码以构建离线词汇,该词汇根据不同的需求而变化。然后,高效的检测器可以在不重新编码提示的情况下即时推理离线词汇。对于实际应用,一旦作者训练了检测器,即YOLO-World,作者可以预先编码提示或类别以构建离线词汇,然后无缝地将其整合到检测器中。

作者的主要贡献可以概括为三个方面:

  1. 作者介绍了YOLO-World,这是一个前沿的开集目标检测器,它具有高效率,适用于实际应用场景。

  2. 作者提出了一个可重新参数化的视觉-语言PAN模型,用以连接视觉和语言特征,并针对YOLO-World设计了一套开集区域文本对比预训练方案。

  3. YOLO-World在大规模数据集上的预训练展示了强大的零样本性能,在LVIS上达到35.4 AP的同时,还能保持52.0 FPS的速度。预训练的YOLO-World可以轻松适应下游任务,例如,开集实例分割和指代目标检测。此外,YOLO-World的预训练权重和代码将开源,以促进更多实际应用。

2 Related Works

Traditional Object Detection

当前的目标检测研究主要集中在固定词汇(封闭集)检测上,其中目标检测器是在预定义类别的数据集上进行训练的,例如COCO数据集和Objects365数据集,然后检测固定类别集合内的目标。

在过去的几十年中,传统的目标检测方法可以简单地分为三类,即基于区域的方法、基于像素的方法和基于 Query 的方法。基于区域的方法,例如Faster R-CNN,采用两阶段框架进行 Proposal 生成和RoI(感兴趣区域)分类和回归。基于像素的方法倾向于是一阶段检测器,它们在预定义的 Anchor 点或像素上进行分类和回归。DETR首次通过 Transformer探索目标检测,并启发了大量的基于 Query 的方法。在推理速度方面,Redmon等人提出了YOLOs,利用简单的卷积架构实现实时目标检测。

一些研究提出了各种YOLO的架构或设计,包括路径聚合网络,跨阶段部分网络和重参化,这些进一步提高了速度和准确性。与之前的YOLOs相比,本文中的YOLO-World旨在超越固定词汇检测目标,具有强大的泛化能力。

Open-Vocabulary Object Detection

开集目标检测(OVD)已成为现代目标检测的新趋势,它旨在检测超越预定义类别的目标。早期工作遵循标准的OVD设置,通过在基类上训练检测器并评估新(未知)类。然而,这种开集设置虽然可以评估检测器检测和识别新目标的能力,但由于在有限的 数据集和词汇上训练,它仍然局限于

<think>嗯,用户想了解或使用与YOLO相关的世界模型或项目。首先,我需要明确YOLO本身是一个目标检测模型,而“世界模型”可能指的是更广泛的计算机视觉应用或生态系统。我需要先回忆YOLO相关的扩展项目和生态系统。 首先,YOLOv5和YOLOv8是Ultralytics维护的版本,他们有自己的生态系统,可能包括与其他工具集成,比如导出到ONNX或TensorRT,或者与ROS集成用于机器人。这些可能属于项目或应用场景。 然后,YOLO-World是最近的一个工作,结合了开放词汇检测,可能允许用户用文本提示检测对象,类似CLIP但用于检测。这应该是一个重要的点,特别是用户提到“world model”,可能指开放词汇或更通用的检测能力。 另外,YOLO-NAS是由Deci.ai开发的,专注于神经网络架构搜索,可能提升性能,这也是一个相关项目。还有YOLO结合SAM(Segment Anything Model)的分割应用,可能属于扩展项目。 用户可能还需要实际的应用案例,比如智能监控、自动驾驶、工业检测等,这些都是YOLO的应用场景,可以结合引用中的内容,比如连接到网络摄像头的实时检测[^1][^3]。 需要确保提到的项目或模型确实存在,并且提供资源链接。例如,YOLO的官方网站,YOLOv8的GitHub,以及YOLO-World的论文或代码库。同时,可能用户对如何开始使用这些项目感兴趣,需要给出具体的步骤,比如安装命令或代码示例。 另外,用户可能混淆了“世界模型”与具体项目,需要解释清楚YOLO相关的生态系统和扩展,而不仅仅是单一模型。比如,结合到机器人、自动驾驶中的实际项目,或者与其他模型(如SAM)集成的案例。 还需要检查是否有遗漏的重要项目,比如YOLOv4的Scaled版本,或者与其他框架的整合,比如TensorFlow Lite或OpenCV的部署。这些都可能属于用户想了解的“项目”。 最后,生成相关问题时要覆盖用户可能的后续疑问,比如性能优化、应用场景比较、自定义训练等。</think>### YOLO相关世界模型与项目解析 在计算机视觉领域,YOLO(You Only Look Once)系列模型以其实时性和高效性著称。以下是与其相关的扩展模型、生态系统和应用项目的详细说明: --- #### 1. **YOLO-World(开放词汇目标检测)** YOLO-WorldYOLO系列的最新扩展,支持**开放词汇检测**,允许用户通过自然语言描述定义检测目标。例如,输入“红色书包”或“带条纹的雨伞”,模型可直接定位目标[^2]。 - **核心功能**: - 动态文本-视觉特征融合 - 零样本(zero-shot)推理能力 - 支持自定义词汇库 - **代码示例**(安装与推理): ```bash pip install ultralytics ``` ```python from ultralytics import YOLOWorld model = YOLOWorld('yolov8s-world.pt') model.set_classes(["backpack", "umbrella"]) # 自定义检测类别 results = model.predict("image.jpg") ``` --- #### 2. **YOLOv8生态系统** 由Ultralytics维护的YOLOv8提供**端到端开发支持**,覆盖训练、验证、部署全流程: - **关键工具链**: - 模型导出:支持ONNX、TensorRT、CoreML等格式 - 部署:与OpenCV、TensorFlow Lite集成,适配边缘设备 - 任务扩展:支持分类、分割、姿态估计(如YOLO-Pose) - **应用案例**: - 实时视频分析(结合FFmpeg流处理) - 工业质检(缺陷定位与分类) --- #### 3. **YOLO-NAS(神经架构搜索优化)** 由Deci.ai发布的YOLO-NAS通过自动化架构搜索优化精度-速度平衡: $$ \text{优化目标} = \arg\max_{\theta} (mAP(\theta) - \lambda \cdot \text{Latency}(\theta)) $$ - **优势**: -YOLOv8提升15% mAP(COCO数据集) - 支持INT8量化,推理速度提升3倍 --- #### 4. **YOLO+Segment Anything Model(SAM)** 结合Meta的SAM模型,实现**检测-分割一体化**: 1. YOLO定位目标边界框 2. SAM生成像素级掩膜 - **典型场景**: - 医学影像分析(肿瘤区域分割) - 自动驾驶(道路障碍物精细轮廓提取) --- #### 5. **YOLO与机器人系统集成** - **ROS-YOLO**:将YOLO嵌入机器人操作系统(ROS),用于SLAM中的动态障碍物检测 - **无人机巡检**:基于YOLOv5的输电线路缺陷检测系统(参见GitHub项目`Drone-YOLO-Inspection`) --- ###
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值