目标跟踪经典论文阅读(1)MOSSE

摘要

虽然不常用,但相关滤波器可以通过旋转、遮挡和其他干扰来跟踪复杂的物体,其速度是目前最先进技术的20倍以上。最古老和最简单的相关滤波器使用简单的模板,通常在应用于跟踪时失败。更现代的方法,如ASEF和UMACE表现更好,但它们的培训需求不适合跟踪。视觉跟踪需要从一帧中训练出鲁棒滤波器,并随着目标物体外观的变化而动态调整。

本文提出了一种新型的相关滤波器——最小输出平方和(Minimum Output Sum of Squared Error, MOSSE)滤波器,该滤波器在使用单帧初始化时产生稳定的相关滤波器。基于MOSSE滤波器的跟踪器在每秒运行669帧时,对光线、比例、姿态和非刚性变形的变化具有鲁棒性。遮挡是根据峰旁瓣比检测到的,这使跟踪器暂停和恢复它离开的地方,当对象重新出现

注:本文包含额外的数字和内容,这些数字和内容被排除在CVPR 2010中,以满足长度要求。

本文提出一种新型的相关滤波器,Minimum Output Sum of Squared Error(MOSSE):输出的平方差误差最小滤波器,在初始化时只使用一个单独的帧就可以产生稳定的相关滤波器,一个基于MOSSE的跟踪器对光线、比例、姿态和非刚性变化具有鲁棒性。遮挡是根据(peak-to-sidelobe ratio)峰旁瓣比检测到的,这使得跟踪器能够在对象重新出现时暂停并恢复到停止的位置。(峰旁瓣比是啥后面再看)


 1.引言

视觉跟踪在视频处理中有许多实际应用。当目标在视频的一帧中被定位时,在随后的帧中跟踪该目标通常是有用的。成功跟踪目标的每一帧都提供了更多关于目标身份和活动的信息。因为跟踪比检测更容易,跟踪算法比在每帧上运行一个对象检测器可以使用更少的计算资源。

近年来,视觉跟踪受到了广泛关注。许多鲁棒跟踪策略已经被提出,容忍目标外观的变化,并通过复杂的运动跟踪目标。最近的例子包括:增量视觉跟踪(IVT)[17],鲁棒碎片跟踪(FragTrack)[1],基于图的鉴别学习(GBDL)[19]和多实例学习(MILTrack)[2]。这些技巧虽然有效,但并不简单;它们通常包括复杂的外观模型和/或优化算法,因此很难跟上许多现代相机产生的每秒25到30帧的速度(见表1)。

在本文中,我们研究了一种更简单的跟踪策略。采用自适应相关滤波器对目标外观进行建模,通过卷积实现跟踪。创建滤波器的简单方法,比如从图像中裁剪模板,会产生目标的强烈峰值,但也会错误地响应背景。因此,他们不是特别健壮的变化的目标外观和失败的挑战跟踪问题。本文介绍的平均合成精确滤波器(ASEF)、无约束最小平均相关能(UMACE)和最小输出平方和误差(MOSSE)滤波器对外观变化具有更强的鲁棒性,并能更好地区分目标和背景。如图2所示,结果是一个更强的峰值,这意味着更少的漂移和更少的丢失轨迹。传统上,ASEF和UMACE滤波器是离线训练的,用于目标检测或目标识别。在这项研究中,我们修改了这些技术,以在线训练和自适应庄园的视觉跟踪。结果是跟踪与状态的艺术表现,保留了很大程度上的速度和简单的基础上的相关性方法。

尽管方法很简单,但基于改进的ASEF、UMACE或MOSSE滤波器的跟踪在旋转、尺度、光照和部分遮挡的变化下表现良好(见图1)。峰旁瓣比(PSR),衡量相关峰值的强度,可用于检测遮挡或跟踪失败,停止在线更新,并在物体以相似外观重新出现时重新获取轨迹。更一般地说,这些高级相关滤波器的性能与前面提到的更复杂的跟踪器一致;然而,基于滤波器的方法的速度超过20倍,每秒可以处理669帧(见表1)。

本文的其余部分组织如下。第2节回顾了相关的相关滤波技术。第3节介绍MOSSE滤波器,以及如何使用它来创建一个健壮的基于滤波器的跟踪器。第4节介绍了[17]的7个视频序列的实验结果。最后,第5节将回顾本文的主要发现。

目标在某一帧被定位时,对随后的帧对该目标的定位是有作用的。跟踪比检测容易,跟踪算法比在每一帧上运行一个对象检测器容易。有些跟踪策略比如......包含了复杂的外观模型或优化算法,因此很难跟得上现在每秒25-30帧的速度。

本文研究了一种更为简单的算法,采用自适应相关滤波器进行建模,通过卷积实现跟踪。简单的方法,比如我直接从图像中裁剪目标的一部分当作对象来跟踪,确实会保存下对象的很多特征,但是背景信息也会被错误的保存下来,ASEF、UMACE和本文介绍的MOSSE对变化具有更强的鲁棒性,更能区分目标和背景。前俩是离线的,MOSSE是在线的。速度达到之前的20倍。

峰旁瓣比(PSR):衡量相关峰值的强度,可用于检测遮挡或跟踪失败,然后停止在线更新,并在物体以相似外观重新出现时重新获取轨迹。


2.背景 

在20世纪80年代和90年代,相关滤波器的许多变种,包括合成判别函数(SDF)[7,6]、最小方差合成判别函数(MVSDF)[9]、最小平均相关能(MACE)[11]、最优权衡滤波器(OTF)[16]和最小平方误差合成判别函数(MSESDF)[10]。这些滤波器训练的目标对象的例子具有不同的外观和强制硬约束,这样滤波器将始终产生相同高度的峰值。最相关的是MACE,它产生尖锐的峰值和高psr。

在[12]中,我们发现基于SDF的滤波器(如MACE)的硬约束会导致失真容忍问题。解决方案是消除硬约束,而不是要求滤波器产生高平均相关响应。这种被称为最大平均相关高度(MACH)的新型“无约束”相关滤波器导致了一种名为UMACE的MACE变体。

一种名为ASEF[3]的新型相关滤波器引入了一种针对特定任务的调整滤波器的方法。以前的方法只指定一个峰值,而ASEF指定每个训练图像的整个相关输出。ASEF在眼睛定位[3]和行人检测[4]上都表现良好。不幸的是,在这两项研究中,ASEF都需要大量的训练图像,这使得它在视觉跟踪中速度太慢。本文通过引入一种适用于视觉跟踪的正则化ASEF,减少了对数据的需求。


3.基于相关滤波器的跟踪

基于滤波器的跟踪器使用在示例图像上训练的滤波器来建模对象的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值