CVPR 2023目标检测(Object Detection)DETRs Beat YOLOs on Real-time Object Detection

最新推荐文章于 2025-05-29 18:09:48 发布

诺姆紫

最新推荐文章于 2025-05-29 18:09:48 发布

阅读量1.5k

点赞数 30

CC 4.0 BY-SA版权

文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/rosieb/article/details/136904201

本文针对基于变压器的端到端检测器（DETRs）计算成本高、难以实时应用的问题，提出实时检测变压器（RT-DETR）。分析了NMS对实时检测器的影响，建立端到端速度基准。设计高效混合编码器和IoU感知查询选择，实验表明RT-DETR在速度和精度上优于同类检测器，还可灵活调整推理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

近年来，基于变压器的端到端检测器(DETRs)取得了令人瞩目的进展。然而，高计算成本限制了der的实际应用，使其无法充分发挥无后处理(non-maximum suppression, NMS)等优点。本文首先分析了NMS对现有实时目标检测器的精度和速度的负面影响，并建立了端到端的速度基准。为了解决上述问题，我们提出了实时检测变压器(RT-DETR)，这是我们所知的第一个实时端到端对象检测器。具体来说，我们设计了一个高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效地处理多尺度特征，并提出了低感知查询选择，通过向编码器提供更高质量的初始对象查询来进一步提高性能。此外，我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度，而无需再训练，这有利于在各种实时场景中的实际应用。我们的rt - der - l在COCO val2017上实现了53.0%的AP，在T4 GPU上实现了114 FPS，而rt - der - x实现了54.8%的AP和74 FPS，在速度和精度上都优于同等规模的最先进的YOLO检测器。 AP的准确性和FPS的21倍。
源代码和预训练模型可在https://github.com/lyuwenyu/RT-DETR上获得。

1、Introduction

物体检测是一项基本的视觉任务，涉及识别和定位图像中的物体。现代目标检测器有两种典型的架构:基于cnn的和基于transformer的。在过去的几年里，人们对基于cnn的物体检测器进行了广泛的研究。这些探测器的结构从最初的两阶段演变为一阶段，并出现了基于锚的和无锚的两种检测范式。这些研究在检测速度和准确性方面都取得了重大进展。基于transformer的目标检测器(DETRs)自提出以来，由于其消除了各种手工制作的组件，例如非最大抑制(NMS)，因此受到了学术界的广泛关注。该体系结构大大简化了目标检测的流水线，实现了端到端的目标检测。

实时目标检测是一个重要的研究领域，具有广泛的应用，如目标跟踪、视频监控、自动驾驶等。现有的实时检测器一般采用基于cnn的架构，这是有原因的，能够权衡检测速度和准确性。然而，这些实时检测器通常需要NMS进行后处理，这通常难以优化且不够鲁棒，导致检测器的推理速度延迟。近年来，由于研究人员在加速训练收敛和降低优化难度方面的努力，基于变压器的检测器取得了显著的性能。然而，DETRs计算成本高的问题尚未得到有效解决，这限制了DETRs的实际应用，导致无法充分发挥其优势。这意味着虽然简化了目标检测流水线，但由于模型本身的计算成本较高，很难实现实时目标检测。以上问题自然激发我们考虑是否可以将DETR扩展到实时场景，充分利用端到端检测器的优势，避免NMS对实时检测器造成的延迟。

为了实现上述目标，我们对DETR进行了重新思考，并对其关键组件进行了详细的分析和实验，以减少不必要的计算冗余。具体来说，我们发现虽然多尺度特征的引入有利于加速训练收敛和提高性能，但它也会导致输入编码器的序列长度显著增加。因此，变压器编码器由于计算成本高，成为模型的计算瓶颈。为了实现实时目标检测，我们设计了一种高效的混合编码器来取代原来的变压器编码器。通过解耦尺度内的相互作用和多尺度特征的跨尺度融合，编码器可以有效地处理不同尺度的特征。此外，先前的研究表明，解码器的对象查询初始化方案对检测性能至关重要。为了进一步提高性能，我们提出了IoU感知查询选择，通过在训练过程中提供IoU约束，为解码器提供更高质量的初始对象查询。此外，我们提出的检测器通过使用不同的解码器层来灵活调整推理速度，而不需要再训练，这得益于解码器在DETR架构中的设计，有利于实时检测器的实际应用。

在本文中，我们提出了一个实时检测变压器(RT-DETR)，这是我们所知的第一个实时端到端对象检测器。RT-DETR不仅在精度和速度上优于当前最先进的实时检测器，而且不需要后处理，因此检测器的推理速度不会延迟且保持稳定，充分发挥了端到端检测流水线的优势。我们提出的RT-DETRL在COCO val2017上实现53.0%的AP，在NVIDIA Tesla T4 GPU上实现114 FPS，而RT-DETRL - x实现54.8%的AP和74 FPS，在速度和精度上都优于目前同类的YOLO探测器。因此，我们的RT-DETR成为实时目标检测的新SOTA，如图1所示。此外，我们提出的rt - der - r50达到53.1%的AP和108 FPS，而rt - der - r101达到54.3%的AP和74 FPS。其中，RT-DETR-R50的准确率比dinodeformad - detr - r50高2.2% (53.1% AP对50.9% AP)， FPS比dinodeform - detr - r50高约21倍(108 FPS对5 FPS)。

本文的主要贡献如下:(i)提出了第一个实时端到端目标检测器，该检测器不仅在速度和精度上优于当前的实时检测器，而且不需要后处理，因此其推理速度不会延迟并且保持稳定;(ii)详细分析了NMS对实时检测器的影响，并从后处理的角度得出了当前实时检测器的结论;(iii)我们的工作为当前端到端检测器的实时实现提供了可行的解决方案，并且所提出的检测器可以通过使用不同的解码器层灵活调整推理速度，而无需再训练，这是现有实时检测器所难以做到的。

2、Related work

2.1：Real-time Object Detectors.

经过多年的不断发展，YOLO系列已成为实时目标探测器的代名词，大致可分为基于锚点的和无锚点的两类。从这些探测器的性能来看，锚不再是制约yolo发展的主要因素。然而，上述检测器会产生大量冗余的边界框，需要在后处理阶段利用nms将其过滤掉。不幸的是，这会导致性能瓶颈，nms的超参数对检测器的准确性和速度有重大影响。我们认为这与实时目标探测器的设计理念是不相容的。

2.2. End-to-end Object Detectors.

端到端目标检测器以其流线型管道而闻名。Carion等人首先提出了基于Transformer的端到端对象检测器，命名为DETR (DEtection Transformer)。它因其独特的特点而引起了极大的关注。特别是，DETR消除了传统检测管道中手工设计的锚和NMS组件。相反，它采用二部匹配，直接预测一对一的对象集。通过采纳通过这种策略，DETR简化了检测管道，缓解了NMS带来的性能瓶颈。尽管有明显的优势，但DETR存在两个主要问题:训练收敛缓慢和查询难以优化。已经提出了许多DETR变体来解决这些问题。具体来说，deform - detr通过提高注意机制的效率，加速了多尺度特征的训练收敛。条件DETR和锚定DETR降低了查询的优化难度。DAB-DETR引入4D参考点，逐层迭代优化预测框。DN-DETR通过引入查询去噪来加速训练收敛。Group-DETR通过引入分组一对多分配来加速训练。DINO建立在以前的作品之上，达到了最先进的效果。虽然我们正在不断改进detr的组件，但我们的目标不仅是进一步提高性能，还要创建一个实时的端到端对象检测器。

2.3. Multi-scale Features for Object Detection.

现代目标探测器已经证明了利用多尺度特征来提高性能的重要性，特别是对于小目标。FPN引入了一种特征金字塔网络，融合了相邻尺度的特征。随后的研究对该结构进行了扩展和改进，并被广泛应用于实时目标探测器中。Zhu等人首先在DETR中引入了多尺度特征，提高了性能和收敛速度，但这也导致DETR的计算成本显著增加。虽然可变形注意机制在一定程度上减轻了计算成本，但多尺度特征的加入仍然导致了较高的计算负担。为了解决这个问题，一些工作尝试设计计算效率高的DETR。高效的DETR通过初始化具有密集先验的对象查询来减少编码器和解码器层的数量。稀疏DETR有选择地更新预期由解码器引用的编码器令牌，从而减少计算开销。Lite DETR通过交错方式降低底层特征的更新频率，提高了编码器的效率。虽然这些研究降低了DETR的计算成本，但这些工作的目的并不是为了促进DETR作为实时检测器。

3. End-to-end Speed of Detectors

3.1. Analysis of NMS

NMS是一种广泛应用于目标检测的后处理算法，用于消除检测器输出的重叠预测框。网管需要设置两个超参数:分数阈值和IoU阈值。一般情况下，分数低于分数阈值的预测框直接被过滤掉，当两个预测框的IoU均超过IoU阈值时，分数较低的预测框将被丢弃。这个过程迭代地执行，直到每个类别的所有盒子都被处理完。因此，NMS的执行时间主要取决于输入预测框的数量和两个超参数。

为了验证这一观点，我们利用YOLOv5(基于锚定)和YOLOv8(无锚定)进行实验。我们首先计算用相同的输入图像对输出框进行不同的分数阈值过滤后剩余的预测框的数量。我们从0.001到0.25选取一些分数作为阈值，对两个检测器的剩余预测框进行计数，并将其绘制成直方图，直观地反映了NMS容易受到其超参数的影响，如图2所示。进一步，我们以YOLOv8为例，评估不同NMS超参数下COCO值2017上的模型精度和网管操作的执行时间。请注意，我们在实验中采用的NMS后处理操作是指TensorRT efficientNMSPlugin，它涉及多个CUDA内核，包括EfficientNMSFilter，RadixSort、effentnms等，我们只报告effentnms内核的执行时间。我们在T4 GPU上测试了速度，上述实验的输入图像和预处理是一致的。我们使用的超参数和结果如表1所示。

3.2. End-to-end Speed Benchmark

为了能够公平地比较各种实时检测器的端到端推理速度，我们建立了端到端速度测试基准。考虑到NMS的执行时间会受到输入图像的影响，有必要选择一个基准数据集，计算多个图像之间的平均执行时间。基准测试采用COCO val2017作为默认数据集，对需要后处理的实时检测器附加TensorRT的NMS后处理插件。具体来说，我们根据对应的超参数测试了探测器的平均推理时间在基准数据集上采取的精度，并排除IO和Memory-Copy操作。我们利用这个基准测试了基于锚点的探测器YOLOv5和YOLOv7，以及无锚点的探测器PP-YOLOE ， YOLOv6和YOLOv8在T4 GPU上的端到端速度。试验结果见表2。根据结果，我们得出结论，对于需要NMS后处理的实时检测器，无锚点检测器在同等精度下优于基于锚点的检测器，因为前者的后处理时间明显少于后者，这在以前的工作中被忽略了。造成这种现象的原因是，基于锚点的检测器比无锚点的检测器产生更多的预测框(在我们测试的检测器中是三倍多)。

4. The Real-time DETR

4.1. Model Overview

提出的RT-DETR由主干网、混合编码器和带辅助预测头的变压器解码器组成。模型体系结构的概述如图3所示。具体来说，我们利用主干的最后三个阶段{S3, S4, S5}的输出特征作为编码器的输入。混合编码器通过尺度内交互和跨尺度融合将多尺度特征转换为一系列图像特征(见第4.2节)。随后，使用iou感知查询选择从编码器输出序列中选择固定数量的图像特征作为解码器的初始对象查询(见第4.3节)。最后，带有辅助预测头的解码器迭代优化对象查询以生成方框和置信度分数。

4.2. Efficient Hybrid Encoder

计算瓶颈分析。为了加速训练收敛和提高性能，Zhu等人提出了引入多尺度特征，并提出了可变形注意力机制来减少计算量。然而，尽管注意机制的改进减少了计算开销，但输入序列长度的急剧增加仍然使编码器成为计算瓶颈，阻碍了DETR的实时实现。据报道，编码器占gflop的49%，但在deform - detr中仅贡献11%的AP。为了克服这一障碍，我们分析了多尺度变压器编码器中存在的计算冗余，并设计了一组变体来证明尺度内和跨尺度特征同时相互作用是计算效率低下的。

高级特征是从包含图像中对象的丰富语义信息的低级特征中提取出来的。直观地看，在串联的多尺度特征上进行特征交互是冗余的。为了验证这一观点，我们重新思考编码器结构，并设计了一系列不同编码器的变体，如图5所示。这组变量逐渐改进了ac模型通过将多尺度特征交互解耦为尺度内交互和跨尺度融合两步操作，显著降低了计算成本(详细指标见表3)。我们首先移除DINO-R50中的多尺度变压器编码器作为基线a。在基线a的基础上，插入不同形式的编码器，产生一系列变体，具体如下:

A→B:变体B插入单量程变压器编码器，使用一层变压器块。每个尺度的特征共享编码器进行尺度内特征交互，然后将输出的多尺度特征串联起来。•B→C:变体C在B的基础上引入跨尺度特征融合，将拼接的多尺度特征输入编码器进行特征交互。•C→D:变体D解耦了尺度内的相互作用和多尺度特征的跨尺度融合。首先，采用单尺度变压器编码器进行尺度内交互，然后利用类似panet的结构进行跨尺度融合。•D→E:变体E在D的基础上进一步优化了尺度内的相互作用和多尺度特征的跨尺度融合，采用了我们设计的高效混合编码器(详见下文)。

·混合设计。在此基础上，我们重新思考了编码器的结构，提出了一种新型的高效混合编码器。如图3所示，本文提出的编码器由两个模块组成，即基于注意力的尺度内特征交互(AIFI)模块和基于cnn的跨尺度特征融合(CCFM)模块。AIFI在变体D的基础上进一步减少了计算冗余，变体D只在S5上执行尺度内交互。我们认为，将自注意操作应用于语义概念更丰富的高级特征，可以捕获图像中概念实体之间的联系，从而便于后续模块对图像中物体的检测和识别。同时，由于缺乏语义概念，并且存在与高级特征交互重复和混淆的风险，低级特征的尺度内交互是不必要的。为了验证这一观点，我们只对变量D中的S5进行尺度内相互作用，实验结果见表3，见DS5行。与普通版本D相比，DS5显著降低了延迟(快了35%)，但提高了准确性(高出0.4%)。这一结论对实时探测器的设计至关重要。CCFM还基于变体D进行了优化，在融合路径中插入了多个由卷积层组成的融合块。熔合块的作用是熔合将相邻特征分解为一个新的特征，其结构如图4所示。融合块包含N个repblock，两条路径的输出通过元素添加进行融合。我们可以将这个过程表述为:

将相邻特征分解为一个新的特征，其结构如图4所示。融合块包含N个RepBlocks，通过元素添加将两路输出进行融合。我们可以将这个过程表述为:其中Attn表示多头自关注，重塑表示将特征的形状恢复到与S5相同，这是Flatten的逆操作。

4.3. IoU-aware Query Selection

将相邻特征分解为一个新的特征，其结构如图4所示。融合块包含N个repblock，通过元素添加将两路输出进行融合。我们可以将这个过程表述为:其中Attn表示多头自关注，重塑表示将特征的形状恢复到与S5相同，这是Flatten的逆操作。DETR中的对象查询是一组可学习的嵌入，由解码器进行优化，并通过预测头映射到分类分数和边界框。然而，这些对象查询很难解释和优化，因为它们没有明确的物理意义。后续工作改进了对象查询的初始化，并将其扩展到内容查询和位置查询(锚点)。其中，都提出了查询选择方案，它们的共同点是利用分类分数来选择top K的特征。DETR中的对象查询是一组可学习的嵌入，由解码器进行优化，并通过预测头映射到分类分数和边界框。然而，这些对象查询很难解释和优化，因为它们没有明确的物理意义。后续工作改进了对象查询的初始化，并将其扩展到内容查询和位置查询(锚点)。其中，都提出了查询选择方案，它们的共同点是利用分类分数来选择top K的特征。将相邻特征分解为一个新的特征，其结构如图4所示。融合块包含N个repblock，通过元素添加将两路输出进行融合。我们可以将这个过程表述为:其中Attn表示多头自关注，重塑表示将特征的形状恢复到与S5相同，这是Flatten的逆操作。DETR中的对象查询是一组可学习的嵌入，由解码器进行优化，并通过预测头映射到分类分数和边界框。然而，这些对象查询很难解释和优化，因为它们没有明确的物理意义。后续工作[40,24,49,43,46]改进了对象查询的初始化，并将其扩展到内容查询和位置查询(锚点)。其中，[49,43,46]都提出了查询选择方案，它们的共同点是利用分类分数来选择top K的特征。DETR中的对象查询是一组可学习的嵌入，由解码器进行优化，并通过预测头映射到分类分数和边界框。然而，这些对象查询很难解释和优化，因为它们没有明确的物理意义。后续工作[40,24,49,43,46]改进了对象查询的初始化，并将其扩展到内容查询和位置查询(锚点)。其中，[49,43,46]都提出了查询选择方案，它们的共同点是利用分类分数来选择top K的特征

其中，y和y分别表示预测和基础真值，y = {c, b}， y = {c, b}， c和b分别表示类别和边界框。我们将IoU分数引入分类分支(类似于VFL[47])的目标函数中，实现对阳性样本分类和定位的一致性约束。有效性分析。为了分析所提出的IoU感知查询选择的有效性，我们在val2017上可视化查询选择所选择的编码器特征的分类分数和IoU分数，如图6所示。具体来说，我们首先根据分类分数选择前K个(实验中K = 300)编码器特征，然后可视化分类分数大于0.5的散点图。红点和蓝点分别从应用vanilla查询选择和iou感知查询选择训练的模型中计算出来。点越靠近图的右上方，对应特征的质量越高，即分类标签和边界框更有可能描述图像中的真实物体。根据可视化结果，我们发现最显著的特征是大量的蓝色点集中在图的右上方，而红色点则集中在右下方。这表明，使用iou感知查询选择训练的模型可以产生更多高质量的编码器特征。

在此基础上，定量分析了两类点的分布特征。图中蓝色点比红色点多138%，即分类分数小于等于0.5的红色点较多，可以认为是低质量特征。然后我们分析分类得分大于0.5的特征的IoU得分，我们发现有120%以上的特征IoU评分大于0.5的，蓝分多于红分。定量结果进一步表明，IoU感知查询选择可以为对象查询提供更多准确分类(高分类分数)和精确定位(高IoU分数)的编码器特征，从而提高检测器的准确性。详细的定量结果见第5.4节。

4.4. Scaled RT-DETR

为了提供一个可扩展的RT-DETR版本，我们用HGNetv2取代了ResNet[16]主干。我们使用深度乘法器和宽度乘法器一起缩放主干和混合编码器。因此，我们得到两个版本的RT-DETR具有不同的参数数量和FPS。对于混合编码器，我们分别通过调整CCFM中repblock的数量和编码器的嵌入维数来控制深度乘法器和宽度乘法器。值得注意的是，我们提出的不同尺度的RT-DETR保持了一个均匀的解码器，这有利于使用高精度大DETR模型对光探测器进行蒸馏。这将是一个可探索的未来方向。

5. Experiments

5.1. Setups

数据集。我们在Microsoft COCO数据集上进行了实验。我们在COCO train2017上进行训练，在COCO val2017数据集上进行验证。我们使用带有单个尺度图像的标准COCO AP度量作为输入。实现细节。我们使用ResNet和HGNetv2系列在ImageNet上进行预训练，并以来自PaddleClas1的SSLD为骨干。AIFI由1个变压器层组成，CCMF中的融合块默认由3个repblock组成。在iou感知查询选择中，我们选择前300个编码器特征初始化解码器的对象查询。解码器的训练策略和超参数基本符合DINO。我们使用AdamW优化器训练检测器，基本学习率= 0.0001，权重衰减= 0.0001，全局梯度剪辑范数=0.1，线性热身步骤= 2000。主干设置的学习率为。我们也使用指数移动平均线(EMA)， EMA衰减= 0.9999。1x配置意味着总历元为12，如果没有指定，所有烧蚀实验都使用1x。报告的最终结果使用6x配置。数据增强包括随机{颜色扭曲，扩展，裁剪，翻转，调整大小}操作，遵循。

5.2. Comparison with SOTA

表2将所提出的RT-DETR与其他实时端到端目标检测器进行了比较。我们提出的rt - der - l实现了53.0%的AP和114 FPS，而rtder - x实现了54.8%的AP和74 FPS，在速度和精度上都优于当前同规模的最先进的YOLO探测器。此外，我们提出的rt - der - r50实现了53.1%的AP和108 FPS，而rt - der - r101实现了54.3%的AP和74 FPS，在速度和精度方面都优于同一骨干网的最先进的端到端检测器。

与实时探测器相比。为了公平比较，我们在端到端设置中将缩放后的RTDETR的速度和精度与当前实时检测器进行了比较(速度测试方法参见第3.2节)。我们在表2中将缩放后的RT-DETR与YOLOv5、PP-YOLOE、YOLOv6v3.0(以下简称YOLOv6)、YOLOv7和YOLOv8进行比较。与YOLOv5-L / PP-YOLOE-L / YOLOv7-L相比，RT-DETR-L的精度提高了4.0% / 1.6% / 1.8% AP, FPS提高了111.1% / 21.3% / 107.3%，参数数量减少了30.4% / 38.5% / 11.1%。与YOLOv5-X / PP-YOLOE-X / YOLOv7-X相比，rtder - x精度提高4.1% / 2.5% / 1.9% AP, FPS提高72.1% / 23.3% / 64.4%，参数数量减少22.1% / 31.6% / 5.6%。与YOLOv6-L / YOLOv8-L相比，RT-DETR-L精度提高0.2% / 0.1% AP，速度提高15.2% / 60.6% FPS，参数数量减少45.8% / 25.6%。与YOLOv8-X相比，rt - der - x在精度上提高了0.9%，在速度上提高了48.0%的FPS，在参数数量上减少了1.5%。

与端到端检测器相比。为了公平比较，我们只比较使用相同主干的基于变压器的端到端检测器。考虑到目前的端到端检测器不是实时的，我们没有在T4 GPU上测试它们的速度，除了DINO-DeformableDERT进行比较。我们根据val2017上相应精度的设置测试检测器的速度，即使用TensorRT FP16测试DINO-Deformable-DETR，输入尺寸为(800,1333)。表2显示，具有相同主干的RT-DETR优于最先进的端到端检测器。比较与dino - deform - detr - r50相比，RT-DETR-R50的精度提高了2.2%(53.1%比50.9%)，速度提高了21倍(108 FPS比5 FPS)，参数数量减少了10.6%。与SMCA-DETR-R101[9]相比，RT-DETR-R101的准确率显著提高了8.0%。与dino - deform - detr - r50相比，RT-DETR-R50的精度提高了2.2%(53.1%比50.9%)，速度提高了21倍(108 FPS比5 FPS)，参数数量减少了10.6%。与SMCA-DETR-R101[9]相比，RT-DETR-R101的准确率显著提高了8.0%。

5.3. Ablation Study on Hybrid Encoder

为了验证我们对编码器分析的正确性，我们评估了第4.2节中设计的一组变量的指标，包括AP、参数数量和延迟。实验结果如表3所示。变体B的准确率提高了1.9%，延迟增加了54%。这证明了尺度内特征交互是重要的，但普通的变压器编码器的计算成本很高。变体C比B提供了0.7%的AP改进，并增加了20%的延迟。由此可见，跨尺度特征融合也是必要的。变体D比C提供了0.8%的AP改进，但延迟减少了8%。这表明解耦尺度内相互作用和跨尺度融合可以在提高精度的同时减少计算量。与变体D相比，DS5减少了35%的延迟，但提供了0.4%的AP改进。这表明不需要较低级别特征的尺度内相互作用。最后，配备我们提出的混合编码器的变体E比d提供1.5%的AP改进，尽管参数数量增加了20%，延迟减少了24%，使编码器更高效。

5.4. Ablation Study on IoU-aware Query Selection

我们对iou感知查询选择进行了消融研究，定量实验结果如图4所示。我们采用的查询选择根据分类得分选择top K (K = 300)个编码器特征作为内容查询，这些被选择特征对应的边界框作为初始位置查询。我们比较了val2017和calcu上两种查询选择所选择的编码器特征分类得分大于0.5的比例和均大于0.5的比例，分别对应“Propcls”和“Propboth”列。结果表明，通过IoU感知查询选择的编码器特征不仅增加了高分类分数的比例(0.82% vs 0.35%)，而且提供了更多高分类分数和高IoU分数的特征(0.67% vs 0.30%)。我们还评估了在val2017上使用两种类型的查询选择训练的检测器的准确性，其中iu感知查询选择实现了0.8% AP的改进(48.7% AP对47.9% AP)。

5.5. Ablation Study on Decoder

表5显示了RT-DETR在不同解码器层下各解码器层的精度和速度。当解码器层数为6时，检测器的最佳准确率为53.1% AP。我们还分析了每层解码器对推理速度的影响，得出每层解码器消耗约0.5 ms。此外，我们发现解码器相邻层之间的精度差随着解码器层索引的增加而逐渐减小。以6层解码器为例，使用5层进行推理只损失0.1%的AP (53.1% AP vs 53.0% AP)，同时减少0.5 ms的延迟(9.3 ms vs 8.8 ms)。因此，RT-DETR支持通过使用不同的解码器层来灵活调整推理速度，而不需要对推理进行再训练，这有利于实时检测器的实际应用。

6. Conclusion

在本文中，我们提出RT-DETR，这是我们所知的第一个实时端到端检测器。我们首先对NMS进行了详细的分析，并建立了端到端速度基准，验证了当前实时检测器的推理速度被NMS延迟的事实。我们还从NMS的分析中得出结论，在相同的精度下，无锚点检测器优于基于锚点的检测器。为了避免NMS造成的延迟，我们设计了一个实时端到端检测器，它包括两个关键的改进组件:一个混合编码器，可以有效地处理多尺度特征和iou感知查询选择这改进了对象查询的初始化。大量的实验表明，与其他实时探测器和类似大小的端到端探测器相比，RT-DETR在速度和精度方面都达到了最先进的性能。此外，我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度，而无需重新训练，这有利于实时目标检测器的实际应用。我们希望这项工作能够付诸实践，为研究人员提供启发。