问题
传统目标检测方法在开放场景中受预定义类别限制。
创新点
1.提出了YOLO-World,这是一个高效的开放词汇目标检测器,适用于真实世界的应用。
2.提出了一种新的可重新参数化的视觉-语言路径聚合网络(RepVL-PAN),以促进视觉和语言信息之间的交互。
预训练表示:区域-文本对
传统的目标检测数据为区域-标签对,作者将其重新定义为区域-文本对
传统目标检测方法在开放场景中受预定义类别限制。
1.提出了YOLO-World,这是一个高效的开放词汇目标检测器,适用于真实世界的应用。
2.提出了一种新的可重新参数化的视觉-语言路径聚合网络(RepVL-PAN),以促进视觉和语言信息之间的交互。
传统的目标检测数据为区域-标签对,作者将其重新定义为区域-文本对