Segment as Points for Efficient Online Multi-Object Tracking and Segmentation
Segment as Points for Efficient Online Multi-Object Tracking and Segmentation
TL;DR
当前的主流的多目标检测分割方法都是采用tracking-by-detection的范式,这种采用卷积进行特征提取会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义。 本文提出了一种tracking-by-points的新范式,PointTracker ,通过将紧凑的图像表示转换为无序的2D点云表示,从而方便地将多模态的数据(颜色、位置、类别等)转换为点状向量表示,以更丰富的特征学习关联匹配的embedding。在KITTI MOTS,MOTS Challenge和本文提出的Appolo MOTS上都取得了SOTA的成绩,并且能够达到22FPS的实时性。
TL;DR
Motivation
-
由于实例分割精确地描绘了可见实例的边界,并自然地分开了邻接实例,因此MOTS与基于边界框(bbox)的方法相比,不仅提供像素级分析,也有利于学习到更多的区分性实例的embedding特征。
-
采用卷积进行特征提取embedding会受固有感受野的影响,会不可避免地将前景特征和背景特征混合在一起,从而在MOT后续实例关联任务中产生歧义,所以本文提出了再将有序的二维图像转化为无序的二维点云表示,从前景背景分别采样不同点云提取前景背景特征,避免前/背景信息混合。
Methods
1.Context-aware instance embeddings extraction
Embedding 特征提取总体思路:将带有上下文的Bbox中的像素按照分割mask分为前景F和背景E,分别在前景和背景中采样,以颜色、位置、类别组合构建采样点特征,所有采样点构成无序点云通过MLP提取embeding特征。
实现细节:对于一个分割实例 ,它的分割记为
,外接矩形记为
,为了让bbox中包含上下文信息,通常bbox向上下左右按照尺度因子(k=0.2)扩大一定区域,记为
,通过分割mask可以确定
内的前景点和背景点.每个样本点的有6个维度特征
,其中
是图像平面上的相对于实例中心的偏移量,