显著性目标检测:一项调查

摘要

从自然场景中检测和分割显著目标(通常称为显著目标检测)引起了计算机视觉的极大兴趣。尽管已经提出了许多模型并且出现了一些应用,但仍然缺乏对成就和问题的深入理解。我们的目标是对显著目标检测的最新进展进行全面回顾,并将该领域置于其他密切相关的领域中,例如通用场景分割、目标提议生成和注视预测的显著性。我们涵盖 228 篇出版物,调查了  i) 根源、关键概念和任务,ii) 核心技术和主要建模趋势,以及  iii) 显著目标检测的数据集和评估指标。我们还讨论了模型性能中的评估指标和数据集偏差等开放问题,并提出了未来的研究方向。

关键词 显著目标检测;显著性;视觉注意力;感兴趣的区域

1 介绍

        人类能够在预注意阶段轻松快速地检测到视觉上独特的(所谓的显著)场景区域。然后,在专注阶段,这些过滤后的区域会被更精细地感知和处理,以提取更丰富的高级信息。认知科学家对这一能力已研究许久,而近来它在计算机视觉领域也引起了诸多关注,主要是因为它有助于找出能够有效表征场景的物体或区域,这在诸如场景理解等复杂的视觉问题中是很有用的一个步骤。与视觉显著性密切相关或关联稍远的一些主题包括:显著物体检测 [1]、注视点预测 [2, 3]、物体重要性 [4–6]、可记忆性 [7]、场景杂乱度 [8]、视频趣味性 [9–12]、意外性 [13]、图像质量评估 [14–16]、场景典型性 [17, 18]、美学 [11] 以及场景属性 [19]。鉴于篇幅有限,本文无法对上述所有的研究方向进行全面探讨。相反,我们只聚焦于显著目标检测这一在过去二十年,尤其是 2007 年以来取得极大发展的研究领域。

1.1 什么是显著目标检测?

        显著目标检测或显著目标分割在计算机视觉中通常被解释为一个包含两个阶段的过程:1)检测最 显著的对象,2)分割该对象的准确区域。然而,模型很少明确区分这两个阶段(除了少数例外,例如参考文献[21-23])。继 Itti 等人的开创性工作之后。 [24] 和刘等人。 [25],模型采用 显著性概念来同时执行两个阶段。没有对这些阶段进行单独评估的事实证明了这一点。此外,大多数基于区域的分数已用于模型评估(例如,精确召回)。第一阶段不一定需要仅限于一个对象。然而,大多数现有模型都尝试分割最 显著的对象,尽管它们的预测图可用于查找场景中的多个对象。第二阶段属于计算机视觉中经典分割问题的领域,但不同之处在于,这里的准确性仅由最 显著的对象决定。

        一般来说,为了实现良好的显著性检测,模型应至少满足以下三个标准:1)良好的检测:丢失真实显著区域和错误地将背景标记为显著区域的概率应较低,2)较高分辨率:显著图应具有高分辨率或全分辨率,以准确定位显著对象并保留原始图像信息,3)计算效率:作为其他复杂过程的前端,这些模型应快速检测显著区域。

1.2 显著目标检测定位

        显著目标检测模型通常旨在仅检测场景中最显著的对象并分割这些对象的整个范围。另一方面,注视预测模型通常尝试预测人类看向哪里,即一小组注视点 [31, 32]。由于两种类型的方法都输出单个连续值显著性图,其中该图中的值较高表示相应的图像像素更有可能被查看,因此它们可以互换使用。

        注视位置和显著物体之间存在很强的相关性。此外,当被要求选择场景中最显著的物体时,人类通常会达成一致[22,23,26]。见图1。

图 1 Borji 等人的示例图像。的实验 [26] 以及带注释的显著对象。点代表 3 秒的自由观看注视时间。

        与显著目标检测和注视点预测模型不同,目标候选框生成模型旨在生成一小套(通常是几百个或几千个)相互重叠的候选目标边界框或区域候选框 [33]。目标候选框生成与显著目标检测密切相关。显著性估计在目标性度量方法中被明确用作一种提示信息 [34, 35]。

        图像分割,也称为语义场景标记或语义分割,是计算机视觉中研究非常深入的领域之一(例如,参考文献[36])。与输出为二进制图的显著目标检测相反,这些模型旨在为每个图像像素分配一个标签,该标签是天空、道路和建筑物等多个类别中的一个。

        图 2 说明了这些研究主题之间的差异。

图 2 不同模型产生的示例结果。从左到右:输入图像、显著目标检测[27]、注视预测[24]、图像分割(各种尺寸的区域)[28]、图像分割(具有可比较尺寸的超像素)[29]和目标提议(真阳性) )[30]。

1.3 显著目标检测的历史

        最早的显著性模型之一,由 Itti 等人提出。 [24],引起了跨多个学科的第一波兴趣,包括认知心理学、神经科学和计算机视觉。该模型是早期通用计算框架和基于中心环绕机制的自下而上注意心理学理论的实现(例如,Treisman 和 Gelade [50] 的特征集成理论,Wolfe 等人的引导搜索模型 [51],以及Koch 和 Ullman 的计算注意力架构 [52])。在参考文献中。 [24],伊蒂等人。展示了一些示例,其中他们的模型能够检测场景中的空间不连续性。随后的行为(例如,参考文献[53])和计算(例如,参考文献[54])研究使用注视作为验证显著性假设和比较模型的手段。

        随着刘等人[25, 55]以及阿钱塔等人[56]的研究成果出现,掀起了第二波研究热潮,他们将显著性检测定义为一个二值分割问题。这些作者受到了一些早期致力于检测显著区域或初始目标的模型(例如马和张[57]、刘与格莱歇尔[58],以及沃尔瑟与科赫[59])的启发。从那时起,涌现出了大量的显著性模型。然而,这种新定义与其他已成熟的计算机视觉领域(例如图像分割(参考文献[60, 61])、类别无关的目标候选框生成(参考文献[30, 34, 62])、注视点预测(参考文献[54, 63 - 66])以及目标检测(参考文献[67, 68]))之间的关联尚不明确。

        随着卷积神经网络(CNN)[69]的流行,最近出现了第三波兴趣,特别是随着全卷积神经网络[70]的引入。与大多数基于对比线索的经典方法不同[1],基于CNN的方法既消除了对手工制作特征的需要,又减轻了对中心偏差知识的依赖,因此已被许多研究人员采用。基于 CNN 的模型通常包含数十万个可调参数和具有可变感受野大小的神经元。具有大感受野的神经元提供全局信息,可以帮助更好地识别图像中最显著的区域,而具有小感受野的神经元提供局部信息,可用于细化高层生成的显着性图。这可以突出显示显著区域并细化其边界。与手工制作的基于特征的模型相比,这些理想的特性使基于 CNN 的模型能够实现前所未有的性能。 CNN模型逐渐成为显著目标检测的主流方向。

2 现状调查

        在本节中,我们回顾 3 个类别的相关作品,包括:1)显著目标检测模型,2)应用程序,3)数据集。各种模型的相似性意味着有时很难在它们之间划出清晰的界限。这里我们主要关注图3所示的编年史中对主要浪潮做出贡献的模型。

图 3 显著目标检测建模的简化记录。第一波浪潮始于 Itti 等人。模型[24],随后是第二波浪潮,引入了刘等人的方法。 [25]谁是第一个将显著性定义为二元分割问题的人。第三次浪潮始于深度学习模型以及Li和Yu模型的兴起[47]。

2.1 旧约:经典模型

        在过去的二十年里,人们提出了大量的方法来检测图像中的显著目标。除了一些尝试分割感兴趣对象的模型(例如参考文献[71-73])之外,大多数方法的目标是首先从图像中识别显著子集(即计算显著性图),然后将它们整合以分割整个显著物体。

        视觉子集可以是像素、块、超像素或区域。块是从图像中均匀采样的矩形块;像素是 1 × 1 块。超像素或区域是被限制在强度边缘内的感知均匀图像块。在同一图像中,超像素通常具有可比但不同的尺寸,而区域的形状和尺寸可能会发生显著变化。在这篇评论中,术语块用于表示像素和补丁,而超像素和区域可以互换使用 。

        一般来说,经典方法可以根据它们利用的类型操作或属性分为两种不同的方式。       

1. 基于块的分析与基于区域的分析。使用了两种类型的视觉子集:块和区域来检测显著目标。早期方法主要采用块,而区域随着超像素算法的引入而变得流行。

2. 内在线索与外在线索。检测显著物体的关键步骤是将它们与干扰物区分开来。为此,一些方法仅从输入图像本身提取各种线索,以突出显示目标并抑制干扰因素(即内在线索)。然而,其他方法认为,内在线索通常不足以区分目标和干扰物,特别是当它们具有共同的视觉属性时。为了克服这个问题,它们结合了用户注释、深度图或类似图像的统计信息等外部线索,以方便检测图像中的显著对象。

        使用上述模型分类,四种组合是可能的。为了构建我们的审查,我们将模型分为三个主要子组:1)具有内在线索的基于块的模型,2)具有内在线索的基于区域的模型,以及 3)具有外部线索的模型(基于块和区域)。一些不容易融入这些子组的方法将在其他经典模型子组中讨论。审查的模型列于表 1(内在模型)、表 2(外在模型)和表 3(其他经典模型)中。

表 1 具有内在线索的显著对象检测模型(按年份排序)。元素:{PI = 像素,PA = 补丁,RE = 区域},其中前缀 m 和 h 分别表示多尺度和分层版本。假设:{CP = 中心先验,G = 全局对比度,L = 局部对比度,D = 边缘密度,B = 背景先验,F = 焦点先验,O = 物体先验,CV = 凸性先验,CS = 中心环绕对比度, CLP = 颜色先验,SD = 空间分布,BC = 边界连接先验,SPS = 稀疏噪声}。聚合/优化:{LN = 线性、NL = 非线性、AD = 自适应、HI = 分层、BA = 贝叶斯、GMRF = 高斯 MRF、EM = 能量最小化、LS = 最小二乘求解器}。代码:{M= Matlab,C= C/C++,NA = 不可用,EXE = 可执行}

表 2 具有按其采用的线索分组的外在线索的显著对象检测模型。对于线索:{GT = 真实注释,SI = 相似图像,TC = 时间线索,SCO = 显著性共现,DP = 深度,LF = 光场}。对于显著性假设:{P = 通用属性,PRA = 预注意线索,HD = 高维特征空间中的判别性,SS = 显著性相似性,CMP = 显著性线索的补充,SP = 采样概率,MCO = 运动相干性,RP = 重复性,RS = 区域相似性,C = 相应,DK = 领域知识}。其他:{CRF = 条件随机场、SVM = 支持向量机、BDT = 提升决策树、RF = 随机森林}

表3 其他显著目标检测模型

2.1.1 具有内在线索的基于块的模型

        在本小节中,我们主要回顾那些利用从图像块中提取的内在特征的显著目标检测模型。继伊蒂等人 [24] 的开创性工作之后,显著目标检测被广泛定义为捕捉场景中的独特性、与众不同之处或稀有性。

        在早期的作品中[56-58],独特性通常被计算为像素级的中心-环绕对比度。胡等人。 [74]使用其特征的极坐标变换在二维空间中表示输入图像。然后将图像中的每个区域映射到一维线性子空间。然后,使用广义主成分分析(GPCA)[75]来估计线性子空间,而无需实际分割图像。最后,通过测量区域的特征对比度和几何特性来选择显著区域。 Rosin [76]提出了一种检测显著物体的有效方法。他的方法是无参数的,只需要非常简单的像素级操作,例如边缘检测、阈值分解和矩保持二值化。瓦伦蒂等人。 [77]提出了一个基于等光度的框架,其中通过线性组合根据弯曲度、颜色增强和等中心聚类计算的显著图来估计显著图。(这段文字介绍了几种显著性检测的方法,从简单的像素对比到复杂的数学建模,体现了领域内不同方法的思路与技术。显著性检测本质上是图像处理中的一个研究方向,目的是找到图像中最能吸引注意力的区域,每种方法都有其独特的思路和适用场景。)

        在一项颇具影响力的研究中,阿钱塔等人 [37] 采用了一种频率调谐方法来计算全分辨率显著图。像素的显著性计算方式如下

其中 Iμ 是图像的平均像素值(例如,RGB/Lab 特征),Iωhc 是输入图像的高斯模糊版本(例如,使用 5 × 5 内核)。(该公式计算显著性分数 s(x) 的核心思想是:基于多尺度图像表示,通过局部对比评估显著性。它结合了高斯金字塔(多尺度特性)和像素邻域对比(局部差异),从而能够有效检测出显著的像素或区域。)

        在事先不知道显著物体大小的情况下,经常采用多尺度对比度来提高鲁棒性[25, 58]。首先构建 L 层高斯金字塔(如参考文献 [25, 58] 中所示)。该金字塔第 l 层图像中像素 x 的显著性分数(表示为 I(l))定义为

其中 N (x) 是以 x 为中心的邻域窗口(例如 9 × 9 像素)。即使有了这样的多尺度增强,在像素级导出的内在线索通常也太差而无法支持对象分割。为了解决这个问题,一些工作(例如,参考文献[25,56,78,79])将对比度分析扩展到补丁级别(将补丁与其邻居进行比较)。(这是一种结合多尺度分析局部对比度的显著性检测方法。它通过高斯金字塔的多尺度特性应对未知物体大小的问题,并通过局部对比捕捉像素的显著性。公式简单且计算效率高,是显著性检测的经典方法之一。)

        后来在参考文献中。 [78],Klein 和 Frintrop 提出了一种信息论方法,利用强度、颜色和方向等特征分布之间的 Kullback-Leibler 散度来计算中心-环绕对比度。李等人。 [79]将中心-周围对比度表述为成本敏感的最大边缘分类问题。中心斑块被标记为正样本,而周围的斑块全部被用作负样本。然后,基于经过训练的成本敏感支持向量机 (SVM),中心补丁的显著性由其与周围补丁的可分离性来确定。(这段话的核心是讨论显著性检测中的一个问题及其解决方案:像素级显著性线索通常过于微弱,难以直接支持对象分割任务,因此引入了一种补丁级别的对比度分析方法。)

        一些作品将补丁唯一性定义为补丁与其他补丁的全局对比[39]。直观上,如果一个补丁与其他最相似的补丁显著不同,则该补丁被认为是显著的。他们的空间距离被考虑在内。类似地,Borji 和 Itti 计算了 RGB 和 Lab 颜色空间中的局部和全局补丁稀有性,并将它们融合以预测注视位置 [65]。在最近的工作中 [80],Margolin 等人。根据观察到在高维空间中独特的斑块比非独特的斑块更加分散,通过测量其与平均斑块的距离来定义斑块的唯一性。为了进一步合并补丁分布,通过将其到平均补丁的路径投影到图像的主要成分上来测量补丁的唯一性。

        总而言之,本节中的方法旨在仅利用内在线索基于像素或块来检测显著对象。这些方法通常存在两个缺点:1)高对比度边缘通常比显著对象更突出,2)显著对象的边界没有得到很好的保留(特别是在使用大块时)。为了克服这些问题,一些方法提出基于区域计算显著性。这提供了两个主要优点。首先,区域的数量远远少于块的数量,为开发高效、快速的算法提供了潜力。其次,可以从区域中提取更多信息特征,从而获得更好的性能。这种基于区域的方法将在下一小节中讨论。

2.1.2 具有内在线索的基于区域的模型

        第二组中的显著性模型采用从使用基于图的分割[81]、均值平移[28]、SLIC[29]或Turbopixels[82]等方法生成的图像区域中提取的内在线索。与基于块的模型不同,基于区域的模型通常首先将输入图像分割成与强度边缘对齐的区域,然后计算区域显著图

        作为早期的尝试,在参考文献中。 [58],区域显著性得分被定义为区域像素的平均显著性得分,根据多尺度对比度定义。 Yu和Wong[83]提出了一组规则来根据背景和显著区域的观察来确定每个区域的背景分数。显著性被定义为全球区域对比的独特性,在许多方法中得到了广泛的研究[42, 84–87]。在参考文献中。 [84],通过测量目标区域和所有其他图像区域之间的全局对比度,引入了基于区域的显著性算法。简而言之,图像首先被分割成N个区域

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值