Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

最新推荐文章于 2023-06-21 15:25:48 发布

rain thought

最新推荐文章于 2023-06-21 15:25:48 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：跟踪算法文章标签：计算机视觉深度学习人工智能机器学习

本文链接：https://blog.csdn.net/zhangsy_csdn/article/details/107734023

Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

TL;DR

当前的主流的多目标检测分割方法都是采用tracking-by-detection的范式，这种采用卷积进行特征提取会受固有感受野的影响，会不可避免地将前景特征和背景特征混合在一起，从而在MOT后续实例关联任务中产生歧义。本文提出了一种tracking-by-points的新范式，PointTracker ，通过将紧凑的图像表示转换为无序的2D点云表示，从而方便地将多模态的数据（颜色、位置、类别等）转换为点状向量表示，以更丰富的特征学习关联匹配的embedding。在KITTI MOTS,MOTS Challenge和本文提出的Appolo MOTS上都取得了SOTA的成绩，并且能够达到22FPS的实时性。

TL;DR

Motivation

由于实例分割精确地描绘了可见实例的边界，并自然地分开了邻接实例，因此MOTS与基于边界框（bbox）的方法相比，不仅提供像素级分析，也有利于学习到更多的区分性实例的embedding特征。
采用卷积进行特征提取embedding会受固有感受野的影响，会不可避免地将前景特征和背景特征混合在一起，从而在MOT后续实例关联任务中产生歧义,所以本文提出了再将有序的二维图像转化为无序的二维点云表示，从前景背景分别采样不同点云提取前景背景特征，避免前/背景信息混合。

Methods

1.Context-aware instance embeddings extraction

Embedding 特征提取总体思路：将带有上下文的Bbox中的像素按照分割mask分为前景F和背景E,分别在前景和背景中采样，以颜色、位置、类别组合构建采样点特征，所有采样点构成无序点云通过MLP提取embeding特征。

实现细节：对于一个分割实例 $C$ ,它的分割记为 $C_s$ ，外接矩形记为 $C_b$ ，为了让bbox中包含上下文信息，通常bbox向上下左右按照尺度因子（k=0.2）扩大一定区域，记为 $\widehat{C_b}$ ,通过分割mask可以确定 $\widehat{C_b}$ 内的前景点和背景点.每个样本点的有6个维度特征 $(u,v,R,G,B,C)$ ,其中 $(u,v)$ 是图像平面上的相对于实例中心的偏移量，