YOLOv11在视频流中的时序建模改进-（加入ConvLSTM或Transformer捕捉帧间关联）

最新推荐文章于 2025-09-04 17:24:40 发布

Clf丶忆笙

最新推荐文章于 2025-09-04 17:24:40 发布

阅读量154

点赞数 3

CC 4.0 BY-SA版权

分类专栏： YOLOv11全栈指南：从零基础到工业实战文章标签： YOLO transformer 深度学习人工智能目标检测目标跟踪

本文链接：https://blog.csdn.net/qq_27756951/article/details/150975024

YOLOv11全栈指南：从零基础到工业实战专栏收录该内容

91 篇文章 ¥59.90 ¥99.00

订阅专栏

文章目录

一、引言与背景概述

1.1 视频目标检测的挑战与机遇

视频目标检测(Video Object Detection, VOD)作为计算机视觉领域的核心任务之一，相比静态图像检测面临着独特的挑战。在真实世界的视频流中，目标往往存在运动模糊、部分遮挡、光照变化等问题，而传统的基于单帧检测的方法如YOLO系列算法难以充分利用视频特有的时序信息。研究表明，视频帧间的时序关联蕴含着丰富的上下文信息，合理利用这些信息可以显著提升检测的准确性和鲁棒性。

YOLOv11作为Ultralytics公司推出的最新一代YOLO系列算法，在单帧目标检测任务中已经展现出卓越的性能。然而，将其直接应用于视频流处理时，仍然存在对时序信息利用不足的问题。我们的改进目标是通过引入ConvLSTM和Transformer模块，使YOLOv11具备捕捉帧间关联的能力，从而提升视频场景下的检测性能。