目标检测的类别损失和位置损失

原创已于 2022-05-13 15:58:45 修改 · 置顶 · 1.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #深度学习 #pytorch

于 2022-05-02 10:34:28 首次发布

python 专栏收录该内容

10 篇文章

订阅专栏

本文详细探讨了Focal Loss在二分类和多分类问题中的应用，重点介绍了如何通过α和γ系数平衡正负样本和难易样本，同时涵盖了位置损失如L1Loss、IoU Loss等在目标检测中的角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

类别损失
位置损失
Inference

类别损失

Cross Entropy Loss

交叉熵损失分为二分类损失和多分类损失

二分类损失

对于二分类问题（即0-1分类），即属于第1类的概率为p，属于第0类的概率为1−p。则二元交叉熵损失可表示为：
在这里插入图片描述
统一格式之后就是：

可以理解为：当实际类别为1时，我们希望预测为类别1的概率高一点，此时 $l o g (p)$ 的值越大，产生的损失越小；反之，我们希望预测为类别0的概率高一点，此时 $l o g (1 - p)$ 的值越大，产生的损失也越小。在实际应用中，二分类的类别概率通常采用sigmoid函数把结果映射到（0，1）之间。

多分类损失

在这里插入图片描述
其中， $Y_i$ 是一个one-hot向量，并定义如下：

$p_{ij}$ 表示第i个样本属于类别j的概率。在实际应用中通常采用SoftMax函数来得到样本属于每个类别的概率。

衍生one-hot向量的建立

无num_classes

import torch
from torch.nn import functional as F

x = torch.tensor([1, 1, 1, 3, 3, 4, 8, 5])
 
y1 = F.one_hot(x) # 只有一个参数张量x
print(f'x = ',x)  
print(f'x_shape = ',x.shape) 
print(f'y1 = ',y1)  
print(f'y1_shape = ',y1.shape)

输出：

x = tensor([1, 1, 1, 3, 3, 4, 8, 5])
x_shape = torch.Size([8])
y = tensor([[0, 1, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 1, 0, 0, 0]])
y_shape = torch.Size([8, 9])

有num_classes

y2 = F.one_hot(x, num_classes = 10)  # 这里num_classes设置为10，其中 10 > max{x}
print(f'x = ',x)  # 输出 x
print(f'x_shape = ',x.shape)  # 查看 x 的形状
print(f'y2 = ',y2)  # 输出 y
print(f'y2_shape = ',y2.shape)

结果：

x =  tensor([1, 1, 1, 3, 3, 4, 8, 5])
x_shape =  torch.Size([8])
y2 =  tensor([[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0]])
y2_shape =  torch.Size([8, 10])

区别：没有指定类别，按给定x最大+1作为类别数量，否则按指定num_classes绘制one-hot向量

Focal Loss

该词提出是在RetinaNet文章中，目的是为了在训练中更关注那些难分类的样本，抑制了那些易分类的负样本的主导作用。论文地址

Focal Loss是对典型的交叉信息熵损失函数的改进，对于一个二分类问题，交叉信息熵损失函数定义如下：（上面刚讲过）
在这里插入图片描述
为了统一正负样本的损失函数表达式，首先做如下定义：（说白了 $p_t$ 就是样本的概率）

$p_t$ 在形式上就表示被预测为对应的正确类别的置信度。这样二分类交叉信息熵损失就可以重写成如下形式：

$\alpha$ 平衡正负样本

为了平衡多数类和少数类的损失，一种常规的思想就是在损失项前乘上一个平衡系数α∈(0,1)，当类别为正时，取 $\alpha_t = \alpha$ ，当类别为负时，取 $\alpha_t = 1-\alpha$ ，这样得到的带有平衡系数的交叉信息熵损失定义如下：
在这里插入图片描述
这样，根据训练样本中正负样本数量来选取 $\alpha$ 的值，就可以达到平衡正负样本的作用。然而，这样做还不能对简单和困难样本区别对待，在目标检测中，既要平衡多数类（背景）和少数类（包含目标的前景），还要平衡简单样本和困难样本，而往往训练过程中往往遇到的问题就是大量简单的背景样本占据损失函数的主要部分。因此，还需要对上述带有平衡系数的交叉信息熵损失做进一步的改进。于是就有了Focal Loss，它定义如下：

$(1-p_t)^\gamma$ 平衡难易样本

在这里插入图片描述
相比于上面的加了平衡系数 $\alpha_t$ 的损失函数相比，Focal Loss有以下两点不同：

固定的平衡系数 $\alpha_t$ 替换成了可变的平衡系数 $1-p_t)$
多了另外一个调节因子 $\gamma$ ,且 $\gamma≥0$

解析：

对于分类准确的样本（也就是易分样本，正样本 $p$ 趋近于1，负样本 $p$ 趋近于0）， $p_t$ 接近于1， $1-p_t$ 接近于0，说明对损失的贡献较小，即减低了易区分样本的损失比例，这已经和原来交叉熵损失函数定义相反；
对于分类不准确的样本（也就是难分样本，正样本 $p$ 趋近于0，负样本 $p$ 趋近于1）， $p_t$ 接近于0， $1-p_t$ 接近于1，不会对loss造成太大影响，这和原来交叉熵损失函数定义相同；
一来二去，变相的提高了分类不准确的样本在损失函数中的权重（降低分类准确，虽然分类不准确没影响，其实相对来说已经提高了）
$p_t$ 也反应了分类的难易程度， $p_t$ 越大，说明分类的置信度越高，代表样本越易分； $p_t$ 越小，分类的置信度越低，代表样本越难分。因此focal loss相当于增加了难分样本在损失函数的权重，使得损失函数倾向于难分的样本，有助于提高难分样本的准确度。
$\gamma$ 等于0的时候，就和普通的交叉熵损失函数一样了， $\gamma$ 越小，难分样本损失越重要，易分样本越不重要。下面给出不同 $\gamma$ 的Focal Loss损失函数曲线：

$\alpha + \gamma$ 结合

在这里插入图片描述
明显既平衡正负样本，又平衡难易样本

位置损失

位置损失有L1 Loss，L2 Loss，Smooth L1 Loss（详解多级目标检测体系结构Cascade RCNN），IoU Loss，GIOU Loss，DIoU Loss，CIoU Loss（详解IoU、GIoU、DIoU、CIoU、EIoU和DIoU-NMS），这些损失函数我都在之前文章中提到过，点击即可抵达，我这里就简单给出公式了。