深度学习论文: YOLOv12: Attention-Centric Real-Time Object Detectors
YOLOv12: Attention-Centric Real-Time Object Detectors
PDF: https://arxiv.org/pdf/2502.12524
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
在目标检测领域,YOLO 系列算法凭借在延迟与准确率间的出色平衡占据主导地位。尽管其改进涉及多个方面,但网络架构设计始终是研究的关键方向。近年来,以注意力为核心的视觉 Transformer(ViT)架构展现出强大建模能力,然而多数架构设计仍聚焦于卷积神经网络(CNN)。这是因为注意力机制存在效率问题,包括二次计算复杂性和低效的内存访问操作,这极大限制了其在对推理速度要求高的 YOLO 系统中的应用。