本文来源公众号“码科智能”,仅用于学术分享,侵权删,干货满满。
原文链接:大幅提升复杂场景精度?YOLOv13轻量化目标检测开源了,从局部感知到高阶语义关联!
YOLO系列模型已经在工业界占据了绝对的主导地位,近两三年的时间版本从YOLOv5快速迭代至YOLOv12,每一个版本都具有其独特的优势,但从大的方向上仍然有需要改进的。
一方面,随着VLM大模型的快速更迭,我们也希望拥有零样本能力的目标检测模型,去年有两篇有影响力的系列工作,一篇是YOLO-World,一篇是YOLOE。
另一方面,我们也希望拥有Transformer的全局建模能力,以及进一步地高阶语义方面的关联。比如,人类在对一件事物进行推理的时候,是将大脑中的已知信息结合起来,再进行推理思考。如下图(a)中非常小的目标(用红色框标记),人类仍然能够识别出它是一个“监控摄像头”。一方面是因为这个小目标看起来与人类记忆中的“监控摄像头”相似,因为我们之前在图片(b)中见过类似的监控摄像头;另一方面,这个小的电子设备安装在建筑物上,并且正对着路上行驶的汽车,因此很可能是一个监控摄像头。
在目标检测领域,一些传统的算法往往只关注于识别图像中的各个对象,而忽视了对象之间的语义联系。这种方法将每个检测区域视为独立单元,不同目标间的高阶语义关联推理限制了目标检测的性能。
以YOLO模型为例,它在处理跨层级特征融合和解析高阶特征关系时存在局限,缺乏捕获全局多对多高阶相关性的能力。这种局限性限制了模型对场景中对象关系的深入理解,也限制了模型在复杂场景下的检测性能。
一、高阶语义关联怎么做?
在视觉数据中,不同的对象在空间、时间和语义上相互作用,形成了复杂的相关性。这些相关性可能是成对的(低阶)或更复杂的基于群体的相关性(高阶)。在清华团队提出YOLOv13之前,去年就首次将超图计算引入目标检测领域,以实现视觉高阶语义关联的建模与学习。
超图计算是一种图论中的推广形式,它是一种高效的特征表示学习方法,用于捕捉和建模数据中的复杂关系。在传统的图中,每条边只能连接两个顶点,而在超图中,一条超边可以连接两个以上的顶点,这使得超图能够表示对象之间的高阶关联,即多个对象之间的关联关系。如下图所示给定一张图像,提取场景中可见的一组对象,并考虑所有节点之间的可能关系。
但是如何克服超图计算范式中由于手工超参数导致的鲁棒性不足?清华团队提出的YOLOv13提出了一种基于超图的自适应相关性增强机制,该机制通过自适应利用潜在相关性,高效地建模跨位置和跨尺度的语义交互。
HyperACE 包括两个关键组件:可学习超边构建模块,根据特征距离自动判断哪些像素应被归为一组,替代传统手工设定阈值的方式;线性复杂度的消息传递机制,以极低成本聚合多尺度特征,并引导模型聚焦于真正相关的区域。
相比传统图建模方式,HyperACE 更擅长处理以下挑战:目标被部分遮挡、多个高度相似目标共存以及大范围尺度变化。
二、基于超图的YOLO网络结构如何做?
YOLOv13模型的网络架构如下。以从骨干网络中提取的多尺度特征作为输入,HyperACE自适应地探索高阶相关性,并实现特征增强和融合。然后,通过FullPAD通道将相关性增强的特征分配到整个网络,以实现复杂场景下的准确目标检测。
Hyper-YOLO模型的网络架构如下。其中骨干网络通过引入混合聚合网络(MANet)来增强特征提取能力,从五个特征层中获取信息;Neck部分中融入了超图计算,实现高阶信息的跨层次和跨位置传播。
最后再看下精度指标等参数对比,其他详细细节可查阅原论文及代码。
将高阶语义关联建模引入主流检测框架,突破了传统成对建模的局限,带来了更强的复杂场景感知能力。开源代码链接如下:
# 论文链接
https://arxiv.org/pdf/2506.17733
# 代码链接
https://github.com/iMoonLab/yolov13
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。