YOLO算法理解与思考

最新推荐文章于 2025-07-15 19:50:25 发布

Wanderist_ZK

最新推荐文章于 2025-07-15 19:50:25 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：计算机视觉深度学习—检测问题深度学习 algorithm 文章标签： DL ML AI

本文链接：https://blog.csdn.net/m0_37922734/article/details/83032143

YOLO（You Only Look Once）是一种高效的对象检测算法，以其端到端的检测速度和性能著称。算法将图像划分为小方格，通过一次卷积预测每个方格的边界框和类别，而非分步进行。非极大值抑制用于选择最优边界框，而anchor box解决多对象重叠问题。尽管如此，YOLO在处理多个对象中心点位于同一小方格时仍面临挑战，且标签构造相对复杂。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看完YOLO算法后，觉得真的是非常棒的一个对象检测算法。

最主要的亮点是他的检测速度快，这和其中的只用一次卷积提取特征有关，也就是说，该算法不是先对图像进行区域划分再进行卷积提特征分类，而是一个端到端的一次性的回归出bounding box和classification，即输出 n * n * 8个参数（假设对象有3类）。Pc：是否有对象，bx：对象中心点的x坐标（小于1），by：对象中心点的y坐标（小于1），bh:bounding box的高度（可以大于1）,bw：bounding box的宽度（可以大于1），类别的onehot:c1,c2,c3，这样加起来一个方格有8各参数。n*n代表小方格的个数。这里的bounding box的位置是根据小方格给出的，比如中心点如果离小方格的左上顶点向右有1/5，那么中心点的x就是0.2，这也就是为什么bounding box的长和宽可以大于1的原因，因为对象的宽可能是小方格的好几倍。

算法步骤中的亮点：

1.对图片进行小方格划分，这里的划分不是为了得到bounding box，而是为了缩小对象检测的范围，把对象最好都能够分配到一个属于它的小方格中（属于与不属于的判断是通过对象的中心点是否在划分的方格中判断的，这点非常重要），这样使得输出的8个参数更准确，检测的性能更好。这也就是YOLO算法为什么performance好的原因了

2.这样我们输入一张图片，通过卷积网络，输出一个n*n*m（根据类别个数而定，上述举例中是8）的三维矩阵。这个亮点是相当于很好的利用了卷积操作和池化操作的特点，使得网络的输出可以输出n*n*m这种形状的矩阵，并且1*1*m就刚好代表一个小方格所检测出来的对象并且给其分了类别。这也就是为什么YOLO算法的速度快的原因了。

3.非极大值抑制（non-max suppression）：用来在预测的bounding box中选出最终的答案，里面用到了IoU，通过非极大值抑制的方法，可以找到多个对象，比如有三个车对象，那么用一次非极大值抑制就会得到3个Pc概率高的输出，并且她们的IoU小于0.5。如果有2个不同的对象，比如有一个车和人，那么需要循环迭代两次 non-max suppression算法。