熙岁-CSDN博客

原创精读：《You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-person Multi-task》

本文提出了一种名为HQNet的单阶段、多任务、以人为中心的统一感知框架（HCP），通过学习的"Human Query"表示来同时处理多人检测、分割、姿态估计和属性识别等任务。针对现有数据集不足的问题，作者构建了COCO-UniHuman基准数据集。实验表明，HQNet不仅在多任务HCP模型中表现最优，还能与单任务专用模型相媲美，且Human Query展现出良好的泛化能力。代码和数据已开源。

2025-09-05 11:42:42 816

原创精读：《VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking》

发表于NeurIPS 2023的《VideoMAE V2》。它旨在解决因计算成本高昂而难以构建大规模视频基础模型的挑战。提出了创新的“双重掩码”策略，在对编码器进行高比例掩码的同时，也对解码器进行部分掩码，极大地提升了预训练的计算和内存效率。基于此，作者成功将模型扩展至首个十亿参数级别(ViT-g)，并结合百万级混合预训练数据集和渐进式训练范式，在行为分类、时空检测等多个主流视频任务上刷新了SOTA记录。

2025-09-02 15:49:18 1100

原创精读：《BoostTrack: boosting the similarity measure and detection confidence for improved multiple obje》

精读：《BoostTrack: boosting the similarity measure and detection confidence for improved multiple obje》

2025-08-22 16:56:59 866

原创精读：《DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE RE-IDENTIFICATION》

这句话首先点明了论文研究的大背景。多目标跟踪（MOT）领域中，一个核心任务是如何将不同帧中的同一个物体关联起来（association）。传统上，这依赖于对物体运动的预测。作者指出，随着近年来物体检测器（如YOLO、Faster R-CNN等）变得越来越强大和精准，单纯依赖运动信息进行关联的跟踪方法又重新变得重要和有效。这为后续提出在该基础上进行改进奠定了基调。这句话指出了当前研究领域的空白和痛点。虽然基于运动的方法很有效，但它们很少能很好地融入物体的“外观信息”（比如一个人的穿着颜色、体型等）。

2025-08-11 16:08:26 791

原创精读：《Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking》

《以观测为中心的SORT：重新思考鲁棒多目标跟踪》，介绍了一种改进的多目标跟踪方法，尤其适用于存在遮挡和非线性运动的场景。该研究由卡内基梅隆大学、上海人工智能实验室和英伟达的研究人员合作完成。

2025-07-29 17:47:22 1291

原创关于“高帧率放大了模型对位置噪声的敏感性”的理解

通常我们认为高帧率是好事，但作者指出，高帧率反而放大了模型对位置噪声的敏感性。因为在高帧率下，物体在两帧之间的实际位移非常小（可能只有几个像素）。此时，检测器带来的位置噪声（即使只有1-2个像素）就可能与真实位移处于同一量级。这导致通过 (当前位置 - 上一帧位置) / 时间计算出的速度估计值会产生剧烈的、不稳定的波动。并且，这个不稳定的速度噪声会通过模型的预测过程，进一步累积到下一帧的位置估计中，形成恶性循环。

2025-07-29 14:42:00 426

原创精读：《StrongSORT: Make DeepSORT Great Again》

还在为各种多目标跟踪（MOT）方法难以公平比较而烦恼吗？一篇名为《StrongSORT: Make DeepSORT Great Again》的重磅论文给出了答案。

2025-07-24 14:10:28 1366

原创即使学习了性能更优的BoTSORT，学习StrongSORT仍然非常有必要

strongsort的简要概括

2025-07-23 16:36:08 918

原创精读：《BPJDet: Extended Object Representation for Generic Body-Part Joint Detection》

模型能检测到人和手，却不知道哪只手属于哪个人？这个看似简单却长期存在的痛点，正是多篇顶会论文致力解决的难题。今天，我们将一起精读一篇发表于中科院一区顶刊 IEEE TPAMI 的重磅论文——《BPJDet: Extended Object Representation for Generic Body-Part Joint Detection》。本文将带你深入剖析BPJDet如何通过一个巧妙的“扩展对象表示”思想，将“检测”与“关联”两大任务融为一体，实现端到端的精准匹配。

2025-07-19 20:15:54 815