DeepSORT：《Simple Online and Realtime Tracking with a Deep Association Metric》

原创已于 2025-07-16 15:22:43 修改 · 909 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#目标跟踪 #人工智能 #计算机视觉

于 2025-07-16 15:22:17 首次发布

多目标跟踪专栏收录该内容

13 篇文章

订阅专栏

文章目录

摘要
1.引言
2. SORT WITH DEEP ASSOCIATION METRIC

摘要

原文: “Simple Online and Realtime Tracking (SORT) is a pragmatic approach to multiple object tracking with a focus on simple, effective algorithms.”
中文翻译: 简单在线实时跟踪（SORT）是一种务实的多目标跟踪方法，其重点在于使用简单而有效的算法。

原文: “In this paper, we integrate appearance information to improve the performance of SORT.”
中文翻译: 在这篇论文中，我们整合了外观信息来提升SORT的性能。

原文: “Due to this extension we are able to track objects through longer periods of occlusions, effectively reducing the number of identity switches.”
中文翻译: 由于这项扩展，我们能够跟踪经过长时间遮挡的物体，从而有效减少身份切换的次数。

原文: “In spirit of the original framework we place much of the computational complexity into an offline pre-training stage where we learn a deep association metric on a large-scale person re-identification dataset.”
中文翻译: 为了秉承原框架（SORT）的精神，我们将大量的计算复杂性放到了一个离线的预训练阶段，在这个阶段，我们在一个大规模的行人重识别数据集上学习一个深度关联度量。
解析:

如何实现: 为了保持在线跟踪的“实时性”，作者没有在跟踪过程中进行复杂的计算。
- 离线预训练 (Offline Pre-training): 他们预先训练好一个复杂的深度学习模型。这个过程非常耗时和消耗计算资源，但在实际应用（在线跟踪）之前就已完成。
- 深度关联度量 (Deep Association Metric): 这个预训练好的模型，学会了一种“度量标准”。输入两个物体的图片，它就能输出一个相似度得分，判断它们是不是同一个物体。这就是所谓的“深度关联度量”，因为它是通过深度学习得到的。
- 行人重识别 (Person Re-identification, Re-ID): 他们使用的训练数据是专门用于“行人重识别”的数据集。这种数据集包含在不同摄像头、不同角度下拍摄的同一个人，专门用来训练模型“认人”的能力。

原文: “During online application, we establish measurement-to-track associations using nearest neighbor queries in visual appearance space.”
中文翻译: 在在线应用期间，我们通过在视觉外观空间中进行最近邻查询，来建立检测与跟踪之间的关联。
解析:

在线如何工作:
- 在实时跟踪时，对于视频中新检测到的物体（measurement），算法会用预训练好的模型提取其“外观特征”（一个向量）。
- 然后，它会在当前所有已跟踪轨迹（track）的外观特征库中，寻找“最近邻”（Nearest Neighbor），也就是特征向量最相似的那个。
- 如果找到了一个足够相似的，就认为这个新检测到的物体就是那个旧的跟踪轨迹，从而将它们关联起来。这个过程非常快，保证了实时性。

原文: “Experimental evaluation shows that our extensions reduce the number of identity switches by 45%, achieving overall competitive performance at high frame rates.”
中文翻译: 实验评估表明，我们的扩展将身份切换的次数减少了45%，并在高帧率下取得了有竞争力的综合性能。

1.引言

这篇引言的写作思路非常清晰，层层递进：

第一段：介绍多目标跟踪领域的现状。作者首先指出“先检测后跟踪”（Tracking-by-Detection）是当前的主流范式，并将其分为两大流派：离线批处理（Batch Processing）和在线逐帧处理（Frame-by-Frame），同时分析了各自的优缺点。
第二段：引出SORT算法。在分析了传统方法的复杂性后，作者介绍了一个“异类”——SORT。它非常简单、高效，并且在某些基准测试上效果出奇地好。
第三段：点出SORT的痛点。在肯定了SORT的优点后，作者指出了它的核心缺陷：在物体被遮挡时，很容易跟丢目标，导致大量的身份切换错误。
第四段：提出本文的解决方案（Deep SORT）。针对SORT的痛点，作者顺理成章地提出了自己的改进方案：引入一个基于深度学习的外观信息模型，来增强跟踪的鲁棒性，并总结了这样做的好处。

下面我们来逐段精读。

第一段：多目标跟踪的技术版图

原文: “Due to recent progress in object detection, tracking-bydetection has become the leading paradigm in multiple object tracking… However, the performance of these methods comes at increased computational and implementation complexity.”

中文解析:
这一段作者描绘了当时多目标跟踪领域的“技术地图”。

主流范式：Tracking-by-Detection (先检测后跟踪)
- 这是一个两步走策略：
  1. 检测 (Detection): 在视频的每一帧中，先用一个目标检测器（比如YOLO, Faster R-CNN）找出所有感兴趣的物体（如行人、车辆），得到一堆边界框（bounding boxes）。
  2. 跟踪 (Tracking): 然后，再用一个跟踪算法将不同帧中的这些边界框关联起来，形成一条条轨迹。
两大技术流派:
1. 离线/批处理 (Batch Processing) 方法:
  - 工作方式: 需要获取整个视频，然后进行全局分析和优化，一次性找出所有物体的最佳轨迹。
  - 优点: 因为能看到全局信息，所以理论上可以找到最优解，准确率可能更高。
  - 缺点: 必须等视频播放完才能开始处理，所以不是实时的，无法用于直播、实时监控等“在线”场景。
  - 例子: 流网络 (flow network)、概率图模型 (probabilistic graphical models)。
2. 在线/逐帧 (Frame-by-Frame) 方法:
  - 工作方式: 算法像人眼一样，一帧一帧地看视频，并立即给出当前帧的跟踪结果，不需要等待后续的帧。
  - 优点: 是实时的，适用于各种在线应用。
  - 缺点: 传统的在线方法，如 MHT (多假设跟踪) 和 JPDAF (联合概率数据关联滤波器)，虽然效果好，但非常复杂，计算量巨大，实现起来也很困难。

本段小结： 作者告诉我们，目前跟踪领域的主流方法（Tracking-by-Detection）中，要么是效果好但不能实时的“离线派”，要么是能实时但太复杂的“在线派”。这就为后面引出SORT埋下了伏笔。

第二段：SORT的登场与启示

原文: “Simple online and realtime tracking (SORT) is a much simpler framework… an important insight from a practitioners point of view.”

中文解析:
在描述了现有方法的困境后，作者话锋一转，介绍了一个“破局者”——SORT。

SORT是什么？ 它是一个极其简单的在线实时跟踪框架。
SORT如何工作？ 它只用了几个核心组件：
1. 卡尔曼滤波器 (Kalman Filtering): 一个经典的预测模型。根据一个物体在前几帧的位置和速度，来预测它在当前帧中应该出现的位置。
2. 匈牙利算法 (Hungarian Method): 一个高效的匹配算法。用于解决“指派问题”，即如何将当前帧实际检测到的物体框，与卡尔曼滤波器预测出的物体框进行最佳配对。
3. 关联度量 (Association Metric): 配对的依据非常简单，就是边界框重叠度 (Bounding Box Overlap)，也常被称为 IoU (Intersection over Union)。谁的预测框和我的检测框重叠面积最大，我就认为它们是同一个物体。
SORT的惊人表现:
- 尽管设计简单，但SORT性能很好，速度飞快。
- 在MOT挑战赛数据集上，使用先进检测器的SORT，其平均排名甚至高于复杂的MHT算法。
SORT成功带来的启示:
1. 检测器的性能至关重要: SORT的成功很大程度上得益于强大的目标检测器。检测器如果准，跟踪任务就成功了一大半。
2. 简单就是美: 从实践者的角度来看，一个简单、高效、易于实现的算法，远比一个复杂、难用、速度慢的算法更有吸引力。

本段小结： 作者高度评价了SORT，它证明了简单的在线方法也能达到很好的效果，这为本文的工作提供了坚实的基础和明确的方向。

第三、四段：SORT的缺陷与本文的解决方案

原文: “While achieving overall good performance… practical application development.”

中文解析:
这两段是引言的核心，直接指出了问题并给出了解决方案。

SORT的缺陷 (第三段):
- 问题: SORT会产生大量的身份切换 (Identity Switches)。
- 原因: 它的关联度量（边界框重叠度）太脆弱了。这个方法只有在物体运动平稳、预测很准（状态估计不确定性低）时才有效。
- 典型失败场景: 遮挡 (Occlusions)。当一个行人被柱子挡住几秒钟后，卡尔曼滤波器的预测会变得非常不确定（预测的位置范围会很大）。当这个行人再次出现时，他的实际位置可能离预测位置很远，导致IoU很低，SORT就认为这是一个新目标，从而分配一个新ID，导致了身份切换。
本文的解决方案 (第四段):
- 核心思想: 用一个更强大、更智能的关联度量来取代简单的边界框重叠度。这个新的度量结合了运动信息和外观信息。
- 具体方法:
  1. 引入外观信息: 使用一个卷积神经网络 (CNN) 来提取每个被跟踪物体的视觉特征（即“长相”）。
  2. 模型训练: 这个CNN是在一个大规模的行人重识别 (Person Re-identification) 数据集上预训练好的，所以它非常擅长分辨不同的人。
- 带来的好处:
  1. 增强鲁棒性: 即使在遮挡后，只要物体的外观没变，算法就能通过比对外观特征重新识别它。
  2. 保持简洁高效: 复杂的CNN模型是离线预训练的，在线跟踪时只是简单地进行特征提取和比对，因此系统依然保持了简单、高效、可在线应用的优点。

引言总结:
作者通过一个“提出问题 -> 分析问题 -> 解决问题”的完美逻辑链，清晰地阐述了工作的动机和贡献。他首先告诉我们跟踪领域存在“效果”与“效率”的矛盾，然后引出SORT作为一个优秀的“效率派”代表，接着指出SORT在“效果”（特别是身份保持）上的不足，最后提出Deep SORT，通过引入深度学习外观特征，完美地解决了SORT的短板，实现了效果和效率的更优平衡。

2. SORT WITH DEEP ASSOCIATION METRIC

原文: “We adopt a conventional single hypothesis tracking methodology with recursive Kalman filtering and frame-by-frame data association. In the following section we describe the core components of this system in greater detail.”

中文翻译: 我们采用了一种传统的单假设跟踪方法，该方法包含递归的卡尔曼滤波和逐帧的数据关联。在下面的章节中，我们将更详细地描述该系统的核心组成部分。

解析:

定下技术基调: 作者开门见山地指出，他们没有发明一个全新的跟踪范式，而是在一个“传统”的框架上进行改进。
单假设跟踪 (Single Hypothesis Tracking): 这是一个关键概念。与我们之前在引言中提到的MHT（多假设跟踪）不同，MHT会为每一个目标保留多种可能的轨迹假设，这非常复杂。而“单假设”意味着对于每个目标，算法在任何时候只保留一个最有可能的轨迹。这大大降低了计算复杂度，是保证算法高效的关键。
递归的卡尔曼滤波 (Recursive Kalman Filtering): “递归”意味着卡尔曼滤波器的工作是持续不断的循环。它利用上一帧的（最优）结果来预测当前帧，然后用当前帧的观测来更新自己的状态，这个更新后的状态又成为预测下一帧的基础。这是一个“预测-校正-预测-校正…”的循环过程。
逐帧数据关联 (Frame-by-frame Data Association): 这再次强调了算法的“在线”特性。它处理完第 N 帧后，再去处理第 N+1 帧，而不需要知道 N+2 帧的信息。

2.1 轨迹管理和状态估计 (Track Handling and State Estimation)

本节核心: 这一小节描述了算法的“bookkeeping”工作。它不涉及论文最创新的“外观特征”部分，而是讲解了如何表示、预测和管理一条条跟踪轨迹。作者明确指出，这部分基本沿用了原版SORT的设计。

原文: “The track handling and Kalman filtering framework is mostly identical to the original formulation in… Tracks that are not successfully associated to a measurement within their first three frames are deleted.”

中文解析:
我们将这部分拆解成三个核心机制：状态表示、运动预测和生命周期管理。

1. 状态表示 (State Representation)

我们要跟踪什么？ 算法将每个被跟踪的物体（目标）定义为一个8维的状态空间 (state space) 向量：
(u, v, γ, h, u̇, v̇, γ̇, ḣ)
这8个变量分别是什么？
- u, v: 边界框的中心点坐标 (x, y)。这代表了物体的位置。
- γ (gamma): 边界框的宽高比 (aspect ratio)。γ = width / height。这代表了物体的形状。
- h: 边界框的高度。结合宽高比γ就可以得到宽度w。
- u̇, v̇, γ̇, ḣ: 这四个变量是上面四个变量的速度，即它们在每一帧的变化率。
为什么要这8个维度？ 这8个维度完整地描述了一个物体的当前状态（位置、形状）以及它的运动趋势（速度）。这是卡尔曼滤波器进行预测的基础。

2. 运动预测 (Motion Prediction)

如何预测？ 算法使用一个标准的卡尔曼滤波器。
基本假设:
- 匀速运动 (Constant Velocity Motion): 卡尔曼滤波器假设物体的运动是线性的、匀速的。这当然是一个简化，因为人会变速、转弯。但在很短的时间内（比如两帧之间），这个假设是基本成立且有效的。
- 直接观测: 算法将检测器给出的边界框 (u, v, γ, h) 作为对物体状态的直接观测值 (observation)。
工作流程:
1. 预测 (Predict): 在处理新的一帧之前，卡尔曼滤波器会根据上一帧所有轨迹的8维状态向量，预测出它们在当前帧中应该出现的位置和形状。
2. 更新 (Update): 在数据关联完成后（我们将在下一节看到），对于一个成功匹配的轨迹，算法会用实际检测到的边界框（观测值）来校正之前的预测，得到一个更准确的、新的8维状态向量。这个过程就是“滤波”。

3. 轨迹生命周期管理 (Track Lifecycle Management)

算法为每条轨迹设定了一套严格的“生老病死”规则，以确保系统的稳定。

出生 (Birth): 当一帧中的某个检测框无法与任何现存的轨迹相关联时，系统就会为它创建一条新的轨迹。
见习期 (Probation / Tentative State):
- 一条新创建的轨迹在最初的3帧内被标记为“暂定/见习 (tentative)”状态。
- 在这3帧里，它必须在每一帧都成功匹配上一个检测框。
- 目的: 这是为了防止由错误的检测（比如一个影子被误识别为行人一帧）产生大量无用的“幽灵轨迹”。只有连续几帧都稳定出现的物体，才被认为是真实的目标，并“转正”为确定的轨迹。
- 如果在这3帧内有任何一帧匹配失败，这条“见习轨迹”就会被立即删除。
衰老与死亡 (Aging and Deletion):
- 系统为每条（已转正的）轨迹 k 维护一个“年龄”计数器 a_k。这个a_k记录的是该轨迹连续多少帧没有被匹配上。
- 每当卡尔曼滤波器进行一次预测（即每过一帧），如果该轨迹没有匹配成功，它的年龄 a_k 就 +1。
- 如果它匹配成功了，年龄 a_k 就重置为 0。
- 当一条轨迹的年龄 a_k 超过了一个预设的阈值 A_max (最大年龄)，系统就认为这个目标已经离开了画面或者被长时间遮挡了，于是将其删除。在论文的实验部分，A_max被设为30帧。

2.2 匹配问题 (Assignment Problem): 成本如何计算？

核心思想: 为了将当前帧的检测框 (detections) 与已有的轨迹 (tracks) 关联起来，我们需要为每一对可能的“（轨迹i, 检测j）”组合计算一个成本 (cost)。成本越低，说明它们是同一个物体的可能性越大。

Deep SORT 的创新之处在于，这个成本不是由单一指标决定的，而是由两种性质互补的度量标准加权组合而成。

度量一：运动信息 (Motion Information) -> 马氏距离 (Mahalanobis Distance)

这个度量回答的问题是：“从运动学的角度看，这个检测框出现在轨迹预测位置的附近，合理吗？”

公式:
d⁽¹⁾(i, j) = (dⱼ - yᵢ)ᵀ Sᵢ⁻¹ (dⱼ - yᵢ)
通俗解释:
- dⱼ 是第 j 个检测框的位置。
- (yᵢ, Sᵢ) 是卡尔曼滤波器对第 i 条轨迹的预测结果。yᵢ 是预测的平均位置，Sᵢ 是这个预测的不确定性（协方差）。
- 马氏距离 (Mahalanobis Distance) 与我们熟悉的欧氏距离不同。它不仅考虑了检测框 dⱼ 和预测位置 yᵢ 之间的距离，还考虑了预测的不确定性 Sᵢ。
- 一个绝佳的比喻:
  - 如果卡尔曼滤波器非常肯定地预测物体会出现在A点（不确定性Sᵢ很小），那么即使一个检测框离A点很近，马氏距离也可能很大。
  - 如果卡尔MAN滤波器非常不确定（比如物体被遮挡了很久，Sᵢ很大），它预测物体可能在一大片区域内，那么即使一个检测框离A点的物理距离很远，它的马氏距离也可能很小。
- 所以，马氏距离衡量的是一种“统计学上的距离”，即“检测框偏离了预测位置 N 个标准差”。
运动门控 (Motion Gate):
- 为了快速过滤掉明显不可能的匹配，作者设置了一个阈值 t⁽¹⁾。如果马氏距离 d⁽¹⁾ 太大（论文中取9.4877，基于95%置信区间计算），就直接认为这对匹配是不可接受的（b⁽¹⁾=0），后续就不再考虑它们。这就像一个门卫，直接拒绝离得太远的访客。

度量二：外观信息 (Appearance Information) -> 最小余弦距离 (Cosine Distance)

这个度量回答的问题是：“这个检测框里的物体，和之前轨迹里的物体，长得像吗？” 这是 Deep SORT 的核心贡献。

公式:
d⁽²⁾(i, j) = min{ 1 - rⱼᵀ rₖ⁽ⁱ⁾ | rₖ⁽ⁱ⁾ ∈ Rᵢ }
通俗解释:
1. 提取特征: 首先，用一个预训练好的CNN（一个宽残差网络 Wide Residual Network）为当前帧的每个检测框 j 提取一个128维的外观特征向量 rⱼ。这个向量就是这个物体的“数字肖像”。
2. 维护一个画廊 (Gallery): 对于每一条已经存在的轨迹 i，系统不仅仅保留它上一次的外观特征，而是维护了一个包含最近100帧外观特征的画廊 Rᵢ。
3. 计算距离: 将新检测框的特征 rⱼ 与轨迹 i 的画廊 Rᵢ 中的每一个历史特征进行比较，计算余弦相似度 (rⱼᵀ rₖ⁽ⁱ⁾)。余弦距离就是 1 - 相似度。
4. 取最小值: 最终，取其中最小的那个余弦距离作为最终的外观距离 d⁽²⁾。
为什么维护一个100帧的画廊？ 这极大地增强了鲁棒性。比如一个行人转身，他当前的外观可能和上一帧差别很大，但和他10帧前的外观可能很像。只要和“记忆中”的任何一个样子匹配上，就算成功。
外观门控 (Appearance Gate): 同理，也存在一个外观阈值 t⁽²⁾。如果两个物体长得太不像（余弦距离太大），就认为这对匹配是不可接受的 (b⁽²⁾=0)。

两种度量的融合

组合成本:
cᵢ,ⱼ = λ d⁽¹⁾(i, j) + (1 - λ) d⁽²⁾(i, j)
- 最终的成本是两种距离的加权和。λ 是一个超参数，用来调节运动和外观哪个更重要。
- 作者发现一个有趣的现象：当摄像头有明显移动时，运动预测会不准，此时不如完全相信外观，即设置 λ = 0，效果反而更好。
联合门控:
bᵢ,ⱼ = b⁽¹⁾ * b⁽²⁾
- 一个匹配被认为是“可接受的 (admissible)”，当且仅当它同时通过了运动门控和外观门控（逻辑与关系）。只有通过了这个联合门控的（轨迹，检测）对，才有资格参与后续的匈牙利匹配。

2.3 级联匹配 (Matching Cascade): 如何分配任务？

在计算出所有可接受匹配的成本矩阵 C 后，一个直接的想法是：用匈牙利算法对整个矩阵求解，找到全局最优匹配。

但作者发现了一个严重的问题，并为此设计了“级联匹配”这一优雅的解决方案。

为什么要级联？（核心动机）

问题: 当一个目标被长时间遮挡后，卡尔曼滤波器的不确定性 Sᵢ 会变得非常大。
反直觉的后果: 根据马氏距离的公式，Sᵢ 越大，算出来的马氏距离 d⁽¹⁾ 反而越容易变得很小。
导致的结果: 这使得一个“失踪”了很久、非常不确定的轨迹，在匹配时拥有了“不公平的优势”。它可能会轻易地“抢走”本该属于一个刚刚短暂遮挡、预测很准的轨迹的检测框。这会导致轨迹非常不稳定。

级联匹配的解决方案

核心思想: 不能让所有轨迹一起去抢检测框，必须论资排辈，让最“确定”的轨迹先选。

这个过程在Listing 1中给出了清晰的伪代码：

初始化: 计算好所有（轨迹，检测）对的成本矩阵 C 和门控矩阵 B。
按“年龄”循环 (for n in {1, …, A_max}): 这里的“年龄 n”指的是轨迹连续失踪的帧数。
- 第1轮 (n=1): 只考虑那些在上一帧刚刚匹配成功的轨迹（年龄为1，最年轻、最确定）。让它们和所有未匹配的检测框进行匹配。
- 更新: 将匹配成功的轨迹和检测框从各自的集合中移除。
- 第2轮 (n=2): 只考虑那些失踪了1帧的轨迹。让它们和剩下的未匹配检测框进行匹配。
- ……以此类推，直到处理完所有年龄的轨迹。

这个级联的过程，就像一个优先级系统，确保了最可靠的轨迹拥有对检测框的“优先选择权”，从而避免了不确定性高的老轨迹来“捣乱”，大大提升了跟踪的稳定性。

最后的补充：IoU匹配

在级联匹配之后，作者还增加了一个小步骤：

对那些年龄为1的、未在级联中匹配成功的轨迹，与剩下的未匹配检测框，再进行一次基于**IoU（交并比）**的匹配。
目的: 这是一个补充和保险措施。比如，一个行人突然转身，外观特征变化巨大，导致在级联匹配中失败。但他的位置依然很准，通过IoU匹配仍能将他成功关联上。这增加了对突发情况的鲁棒性。

2.4 深度外观描述符

本节核心: 解释用于提取物体外观特征的卷积神经网络 (CNN) 是什么、它是如何训练的、它的结构是怎样的，以及它的性能如何。

1. 为什么需要一个强大的、预训练好的模型？

原文: “By using simple nearest neighbor queries without additional metric learning, successful application of our method requires a well-discriminating feature embedding to be trained offline…”

中文解析:

方法论: 作者在 2.2 节中提到，在线跟踪时，他们只是简单地进行最近邻查询（比较特征向量的余弦距离）。他们没有在跟踪的过程中去动态地“学习”如何更好地度量相似度（即没有额外的度量学习 “metric learning”）。
关键推论: 这种方法的成功与否，完全取决于离线预训练好的模型所提取出的特征（feature embedding）质量有多高。如果模型能为不同的行人生成差异巨大、辨识度高的特征向量，那么简单的最近邻查询就能工作得很好。反之，如果特征质量差，再复杂的在线匹配算法也无济于事。
结论: 必须在离线阶段 (offline)，即在开始跟踪任务之前，就训练好一个辨识能力极强 (well-discriminating) 的特征提取模型。

2. 模型是如何获得强大能力的？——行人重识别训练

原文: “…we employ a CNN that has been trained on a large-scale person re-identification dataset that contains over 1,100,000 images of 1,261 pedestrians…”

中文解析:

训练任务: 为了让模型擅长“认人”，作者没有从零开始训练，而是直接采用了一个在行人重识别 (Person Re-identification, Re-ID) 任务上训练好的 CNN。
行人重识别 (Re-ID): 这是一个专门的计算机视觉任务。它的目标是，在不同的、不重叠的摄像头视角下，判断某个人是否是同一个人。
训练数据: 他们使用的 Re-ID 数据集非常庞大（MARS 数据集），包含超过 110 万张图片，涵盖了 1261 个不同的行人。
为什么这很关键？: 在如此大规模、多样化的数据上训练，使得这个 CNN 模型具备了强大的泛化能力。它学会了忽略光照、姿态、背景、摄像头角度等无关因素的变化，而专注于提取行人本身稳定、可区分的本质外观特征（如衣着、体型等）。这正是多目标跟踪在面对遮挡和视角变化时所急需的能力。

3. 模型的内部结构 (Table 1)

原文: “The CNN architecture of our network is shown in Table 1. In summary, we employ a wide residual network…”

中文解析:
作者采用的是一种叫做“宽残差网络 (Wide Residual Network, WRN)”的强大CNN架构。我们来逐层理解表1：

输入: 一张从视频帧中裁剪出来的、尺寸归一化为 128x64 的行人边界框图像。
Conv 1, Conv 2 (卷积层): 这两层是网络的起点，负责从原始图像中提取底层的视觉特征，比如边缘、角点、颜色块等。
Max Pool 3 (最大池化层): 这一层的作用是降采样，将特征图的尺寸减半（从 64x32 变为 32x16）。这样做的好处是：
1. 减少计算量。
2. 增大感受野，让后续的层能看到更广阔的图像区域。
3. 提供一定的平移不变性，让网络对物体位置的微小变化不那么敏感。
Residual 4 到 Residual 9 (残差块): 这是网络的核心部分。残差网络 (Residual Network) 的设计允许网络建得非常深，同时又能有效地训练。这些块负责学习越来越抽象和复杂的组合特征，比如从简单的边角料组合成躯干、四肢的轮廓，再到衣服的纹理等。注意 Residual 6 和 Residual 8 之后，特征图尺寸再次减半。
Dense 10 (全连接层): 在经过一系列卷积和残差块的处理后，我们得到了一个复杂的特征图。全连接层的作用是将这个二维的特征图“拍扁”，并浓缩成一个一维的、128维的向量。这个向量就是我们最终想要的外观描述符，是这个行人图像的“数字签名”。
Batch and l2 normalization (批归一化和L2归一化): 这是至关重要的一步。
1. 批归一化 (Batch Normalization) 是训练技巧，帮助网络稳定收敛。
2. L2归一化 (L2 Normalization) 的作用是将最终输出的128维向量的长度（或模长）缩放到1。
3. 为什么要做L2归一化？ 这是为了与 2.2 节中的余弦距离完美配合。将所有特征向量都归一化到单位超球面上，这样向量之间的欧氏距离就等价于它们的夹角（余弦距离）。这使得比较只关注特征的“方向”（即外观模式），而忽略了其“强度”，让度量更加稳定和公平。

4. 性能与实用性

原文: “…one forward pass of 32 bounding boxes takes approximately 30 ms on an Nvidia GeForce GTX 1050 mobile GPU…”

中文解析:

参数量: 网络总共有约 280 万个参数。
计算速度: 在一块移动版的 GTX 1050 GPU上，一次性处理32个边界框的特征提取，大约需要30毫秒。
结论: 这个速度完全满足了在线实时跟踪的要求（一秒钟可以处理超过1000个边界框，远超通常一帧中的目标数量）。前提是需要有一块现代的GPU来支持。

3. 实验 (EXPERIMENTS)

这一部分的核心是回答三个问题：

怎么测的？ (实验设置)
用什么标准评判？ (评估指标)
结果怎么样？ (结果分析)

3.1 实验设置 (How)

测试平台: 作者在业界公认的 MOT16 基准数据集上测试他们的算法。这个数据集非常具有挑战性，包含了多种复杂场景（如摄像头移动的正面视角、俯视监控视角），能全面地评估算法的性能。
输入源 (保证公平性): 为了公平地与原版SORT及其他算法比较，他们没有使用自己的目标检测器。而是使用了另一篇论文提供的检测结果（由一个强大的Faster R-CNN模型生成）。他们强调，为了进行直接对比，他们用完全相同的检测结果重新运行了原版SORT算法。这一点非常重要，因为它保证了跟踪性能的提升确实来自于跟踪算法本身（Deep SORT）的改进，而不是因为用了更好的检测器。
关键参数设置:
- λ = 0: 这是个非常有趣的发现。这意味着在最终的成本计算中，他们完全放弃了运动信息（马氏距离），只依赖外观信息（余弦距离）来判断“谁和谁最像”。但是，请注意，运动门控（马氏距离阈值）依然在起作用。可以这样理解：“如果一个检测框从运动轨迹上看根本不可能属于这条轨迹（离得太远），我就直接无视它。但对于所有可能的目标，我将只根据它们的长相来决定最终匹配给谁。” 这在有相机运动的场景下非常合理，因为相机自身的移动会让基于物体自身运动的预测变得不可靠。
- A_max = 30 帧: 一条轨迹在失踪（未匹配成功）30帧后才会被删除。在30fps的视频中，这给了目标大约1秒的缓冲时间来应对遮挡。

3.2 评估指标 (What)

作者使用了一系列MOT（多目标跟踪）领域的标准指标来评估性能。这里我们用通俗的语言解释一下：

MOTA (多目标跟踪准确度): 最重要的综合得分。它综合考虑了三种错误：误报（False Positives, FP，把背景当目标）、漏报（False Negatives, FN，没检测到目标）和身份切换。分数越高越好。
MOTP (多目标跟踪精确度): 衡量定位的精准度。即，你跟踪到的边界框和真实物体的边界框重叠得有多好。分数越高越好。
MT (大部分被跟踪): 所有真实轨迹中，有多大比例的轨迹在超过80%的生命周期里都被成功跟踪了。这个比例越高，说明跟踪越稳定。
ML (大部分已丢失): 与MT相反，有多大比例的轨迹在超过80%的生命周期里都是丢失状态。这个比例越低越好。
ID Switches (ID/IDS, 身份切换): 本文最关心的核心指标。在一条完整的真实轨迹中，跟踪器变换了多少次ID。越低越好。
FM (轨迹碎片): 一条轨迹被中断后又被重新找回的次数。比如，一个目标跟丢了，几帧后又被同一个ID找回来了，这就产生了一次“碎片”。越低越好。

3.3 结果分析 (So What?)

这是本节的精华，作者不仅展示了结果，更深入地分析了结果背后的原因。

核心改进成果:
- 与原版SORT相比，Deep SORT 的 ID切换次数从1423次骤降到781次，减少了约45%！这完美地证明了引入深度外观特征确实解决了SORT最核心的痛点。
- 同时，MT（大部分被跟踪）的比例显著上升，而ML（大部分已丢失）的比例显著下降。这说明，由于外观信息的帮助，算法能够成功地维持对目标的跟踪，即使它们经历了长时间的遮挡。
一个有趣的权衡 (Trade-off):
- 作者坦诚地指出，轨迹碎片(FM)的数量有轻微的上升。这是为什么呢？这恰恰是算法努力维持身份的结果。因为Deep SORT现在更“执着”于通过外观信息找回被遮挡的目标，它会更长时间地等待目标重新出现。这种“执着”虽然避免了ID切换，但如果中间有几帧检测失败，就容易造成一次轨迹的中断和重连，从而增加了FM。原版SORT可能早就放弃并分配新ID了。这是一个典型的“用少量FM换取大量ID切换减少”的成功权衡。
与其他在线方法的对比:
- Deep SORT 在所有在线跟踪方法中，取得了最低的ID切换数，同时保持了有竞争力的MOTA分数和FM数。这奠定了它在“保持身份一致性”这一单项上的领先地位。
对自身缺点的分析 (诚实的自我批评):
- 作者指出，他们的MOTA分数主要被**较高的误报（False Positives, FP）**拖累了。
- 原因何在？ 他们发现，这些误报大多来自于检测器对静态背景的“灵光一现”式的错误检测（比如一块阴影、一个海报上的人脸被短暂地识别为行人）。而由于他们设置的A_max比较大（30帧），算法会“耐心地”跟踪这些实际上不存在的物体一段时间，从而累积了较多的FP。
- 但他们也观察到一个好现象：算法很少会在这些错误的警报之间来回跳跃，而是为每一个错误检测生成一条相对稳定的（静止的）轨迹。这说明跟踪器本身是稳定的，问题主要源于需要更好地过滤掉来自检测器的“垃圾输入”。
运行效率:
- 算法的运行速度约为 20 Hz (即每秒处理20帧)，完全达到了实时标准。
- 其中，大约一半的时间都花在了提取外观特征上。这说明CNN部分是主要的计算开销，但也证明了其网络设计的高效性。