Ultralytics 家族(yolov5/yolov8/yolov11)介绍之二：yolov8详解

远上寒山

已于 2025-07-25 08:55:42 修改

阅读量746

点赞数 16

CC 4.0 BY-SA版权

文章标签：目标检测 YOLO yolov8 yolov5 yolov11

于 2025-07-11 13:34:44 首次发布

本文链接：https://blog.csdn.net/m0_38097087/article/details/149272513

1 YOLOv8 诞生背景

Ultralytics 在 2023‑01‑10 发布 YOLOv8，目标是把检测、分割、姿态、分类、OBB 等多任务统一进单一框架，同时在 COCO 上相对 YOLOv5 全线提升 mAP。
核心理念：简化工程成本 + 拓展任务边界 + 提升精度。为此官方勇敢替换了 YOLO 系列多年的 Anchor‑based、耦合头范式。

2 架构总览（与 YOLOv5 的对照）

组件	YOLOv5	YOLOv8	改进动机
Backbone	Focus + C3（CSP）	C2f 替换 C3；删掉多余卷积	C2f 提升梯度流 & 轻量化
颈部 (Neck)	PANet	仍用 PAN/FPN，但特征通道更紧凑	与 C2f 配合减参、增速
检测头	Anchor‑based 耦合 (obj+cls+box)	Anchor‑free + 解耦 (cls / box)；无 obj 分支	①去掉手动 anchor ②解耦梯度冲突
损失	BCE+CIoU/GIoU	DFL (分布式边界回归) + Varifocal/Quality Focal；box 用 IoU‑aware L1	亚像素精度 & 正负样本重加权GitHub Ultralytics Docs
标签分配	固定 IoU 阈值 (anchor_t)	TaskAlignedAssigner 动态匹配	分类+定位联合分数，减少错配
数据增强	Mosaic/MixUp/HSV…	同上，但后期自动关闭 Mosaic，增稳收敛	让分布回归真实场景
任务支持	检测(+分割)	检测/分割/分类/姿态/OBB 全部内置	单框架多任务

3 关键改进点 & 原因详解

3.1 C3 → C2f 模块

怎么改？ C2f 在主干与颈部分别用两条并行分支，所有 Bottleneck 输出统一 Concat，而不是只用最后一层结果进行Concat。
为什么？
1. 使特征复用更充分，梯度在浅层即可回流；
2. 在同参或更少参的情况下提高表达能力，尤其对小目标友好。

3.2 Anchor‑free & 解耦头

怎么改？ 删除 obj 分支，仅输出 (x,y,w,h) + cls；分类、回归各自独立卷积GitHub Medium。
为什么？
1. Anchor‑free的优点：不用再聚类/手调 anchor；
2. Anchor‑free的优点：anchor 不依赖固定先验，对尺度跨度大的数据集更鲁棒；
3. 解耦头的优点：解耦避免 cls 与 box 竞争同一特征，提高收敛速度。

3.3 DFL（Distribution Focal Loss）——“把坐标回归变成离散分布期望”

先抛结论：YOLOv8 之所以能把定位误差压到亚像素级，关键在于 DFL。它不再直接回归 4 个连续坐标，而是先“找刻度”——预测目标落在一串离散刻度（固定 bin）的概率分布，然后用期望值还原精确坐标。这让回归问题带上了明显的“分类味”，输出波动更小。

对比 YOLOv5 的 anchor‑based 流程：每个 grid 先在 3 个 anchor 中“分类”出最合适的一枚，再“回归”相对缩放系数——本质是 分类 + 回归 的串联。而 DFL 进一步把坐标回归拆解成 “在 16 个离散刻度上做分类”，分类色彩更浓。

经验也说明：分类输出通常比纯回归稳定。比如检测框直接回归坐标容易轻微漂移；若改为先做逐像素语义分割（纯分类），再从掩码拟合框，得到的坐标往往更平滑一致。

3.3.1  从 L1 到 “投骰子”

传统 L1/IoU 回归	DFL 分布回归
直接输出 l^,t^,r^,b^ 四个实数	每一侧输出 (reg_max+1)个 logits（默认 reg_max = 16 → 17 格）
与真值做 L1 / GIoU 损失	Softmax 得到概率分布 p，再与“软标签” q做 Focal‑weighted BCE
精度受网格量化 + L1 粗糙梯度限制	期望∑iipi 可细到 1/reg_max 像素；梯度更平滑

直观类比

把一条 17 格的尺子横在每条边上，网络预测“落在第 k 格的概率”，最后算加权平均。格子越多（reg_max 越大），刻度越细。

3.3.2 训练细节（通俗流程）

量化先把真实残差 Δ∗\Delta^*Δ∗（例如左边距）除以 stride，落在 0–16 之间；
软标签 把 Δ∗ 映射到最近的两格，按距离做线性插值，得到q（避免阶梯形标签）；
损失用 Focal‑加权 BCE 度量 p 与 q的差异：难样本梯度更大；
推理取期望 Δ^=∑ipi（可看成“掷 17 面骰子后的平均点数”），再乘 stride 复原到像素坐标。

代码可在 Ultralytics utils/loss.py::DFLoss 中找到，实现不过几行卷积 + Softmax。

3.3.3 为什么更准、更稳？

亚像素定位 —— 17 格可细分 640 px 输入的每个像素到 0.06 px；<br>
更平滑的梯度 —— 损失对每个 bin 都有梯度信号，尤其对长尾大框不再“一言不合就零梯度”；
自带不确定度 —— 分布越尖锐代表模型越有把握，越平坦代表犹豫，可直接用于 Quality Focal / Varifocal 等置信度重排机制。

在 COCO 上，单把 YOLOv5 的 L1/CIoU 换成 DFL 即可带来 ≈ 1.0 mAP 的额外收益；在小‑medium 目标子集提升更明显。

3.4 Task‑Aligned Dynamic Label Assignment(标签分配)

3.4.1 经典静态规则的痛点

IoU > 阈值即正样本：前期回归还差远，却硬要求分类给高分 → 任务错位；
IoU 单一维度无法衡量预测质量（置信度、定位共同决定）。

3.4.2 任务对齐公式

YOLOv8 不再用固定 IoU 阈值去硬划正负样本，而是让 分类置信度和定位质量一起“投票”。对每个候选点（Anchor‑free 时就是特征图上的一个特征像素点），模型先给出：

p_cls —— 当前类的分类分数
IoU —— 该点回归框与 GT 框的交并比

然后计算 对齐评分

默认 α=1, β=6 ⁣− ⁣8。
对于每个 GT，只取对齐评分 Top‑k（常用 k=10） 的候选当正样本，其余统统为负；

3.4.2 效果与优势

维度	静态 IoU 阈值	Task‑Aligned
正样本数量	随 IoU 分布波动，大框易占太多	固定 Top‑k，GT 不会“挂零”
任务协同	分类忽视定位误差	分类分数直接参与对齐，越准框权重越高
极端样本	细长框、高遮挡框常被丢弃	只要预测有高 IoU 或高置信，仍可入选

在 YOLOv8 中，这一策略与 解耦头 + DFL 协同：

分类分支早期输出较低置信，α=1 保持梯度；
随训练深入，IoU 提升，β 放大定位差别，模型自动聚焦“真正优质”的候选。

3.4.4 代码示例（ultralytics/assigner.py）

metric = (cls_pred[:, g_id] ** alpha) * (iou_pred ** beta)
topk_idx = metric.topk(k=min(topk, metric.size(0))).indices
pos_mask[topk_idx] = True
# 若某 GT pos_mask.sum() == 0: 再加 select_highest_overlaps() 补底

GitHub 讨论中还强调了“select_highest_overlaps 兜底”，确保最后一 GT 至少有 1 正样本。

3.4.5 参数小贴士