YOLO-World: Real-Time Open-Vocabulary Object Detection 简介+安装+运行

ntr亚丝娜（我永远喜欢千花书记）

已于 2024-04-19 11:14:47 修改

阅读量2k

点赞数 7

CC 4.0 BY-SA版权

文章标签：自然语言处理 yolo YOLO-World 多模态

于 2024-04-13 16:56:23 首次发布

本文链接：https://blog.csdn.net/weixin_42179685/article/details/137715679

文章介绍了YOLO_WORLD模型，一种可以在不重新训练的情况下，仅通过修改目标名称识别新物体的技术。它利用特征向量和文本嵌入，显著提高了效率。用户可以轻松设置自定义类别并进行预测，尽管可能存在描述局限性，但作者期待未来结合图生文思路进一步优化用户体验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

YOLO_WORLD太牛了！！众所周知，传统是视觉目标检测一旦训练好后，如果我们需要增加新的识别目标的话，必须得重新训练模型。在生产中如果经常要新增检测目标，对时效性影响很大，而且随着数据量和种类增多，训练时长不可避免增加。
现在YOLO_WORLD提供了一个新玩法。只需修改目标名称，在不重新训练模型的情况下，可以识别到新的物体。并且其识别速度还是YOLOv8的20倍！！！

在这里插入图片描述
备注：以下为个人见解。如有错误，欢迎指出！！Thanks♪(･ω･)ﾉ

模型简介

一、该模型思路

主干特征网络使用CNN会比Transform架构轻量化许多。YOLO中yolohead的分类器和方框定位中，对分类器进行非常有意思的修改，参考多模态大模型的实现的图文对齐，使其分类器那块不再是每个框的概率，而是变成每个框的特征向量。即每个检测框都有自己的特征向量，通过比对最接近文本类里距离最近的文本特征向量来判断该检测框的类别。

二、大致流程如下：

不用担心文本embedding和图像embedding的问题，大佬们已经对齐啦~~
1、人输入想要检测目标文本（建议不要太口语化）。
2、Text Encoder 切割文本分好类型。
3、文本Embedding把各个类型转成对应特征向量。
4、传入检测图片。
5、YOLO Backbone：模型图片提取特征。
6、Vison-Language：视觉信息和语言信息进行联合处理和分析。
7.1、检测框内图像信息的特征向量通过和文本类向量比对获取相似度最大的。
7.2、检测框坐标数据