提出了一种基于布尔映射的显着性模型。 图像的特征在于一组二进制图像,这些二进制图像是通过随机阈值图像的颜色通道而生成的。 BMS根据图形地面隔离的格式塔原理,通过分析布尔图的拓扑结构来计算显着图。 BMS易于实施且运行高效。 尽管具有简单性,但与五个眼动追踪数据集上的十种领先方法相比,BMS始终能够实现最先进的性能。 此外,还显示出BMS在显着目标检测中是有利的。
在本文中,我们关注自下而上的显着性检测问题。 主要目标是计算一个凸显图,该凸显图在地形上表示视觉注意力的显着性水平。 计算这样的显着性图最近引起了大量的研究兴趣(综述参见[4]),并且已被证明在许多应用中是有益的,例如。 图像分割[12],对象识别[32]和视觉跟踪[28]。 许多先前的工作已经利用局部图像补丁的对比度和稀有度属性来进行显着性检测[19,6,3]。 但是,这些属性对建模一些已知与视觉注意力有关的全局感知现象的能力有限。 一种这样的全球感知机制是基于图的分割。 正如格式塔心理学研究表明的那样,人物比背景要素更容易受到关注[31,29],并且人物与背景之间的关联会在没有关注的情况下发生[22]。 神经科学的发现还表明,参与形状感知的猴子和人脑中的某些反应严重依赖于图形背景分配[2,26], 表明该过程可能在视觉系统的早期开始。 图1:(a)来自MIT数据集[20]的图像(左)及其眼睛跟踪数据(右)。 (b)由AIM [6],LG [3]和我们的方法(从左到右)估计的显着性图。 AIM和LG根据图像补丁的稀有性来衡量其显着性。 我们基于全局结构信息的方法对背景元素拥有较小的相应。
(a)鸟类自然被视为前景而其余被视为背景。 眼睛的注视集中在鸟身上,与这个背景图很好地对应。 但是,由于没有意识到这种全局结构,基于稀有度的模型[6,3]错误地将高显着性值分配给了背景中树木和天空之间的边缘区域,因为该图像中的高对比度区域很少(图 1(b))。 在这项工作中,我们提出了一个新颖的基于布尔图的显着性模型(BMS),该模型利用了已知有助于感知地物隔离的全局拓扑线索。 正如格式塔心理学研究表明的那样,几个因素可能会影响人物与地面的隔离,例如 大小,包围度,凸度和对称性[30]。 在本文中,我们探索了用于显着性检测的周围环境提示。 包围的本质是人物与地面之间的围护拓扑关系,这种关系定义明确并且对于各种变换都是不变的。 为了测量周围环境,BMS通过一组布尔映射来表征图像。 在BMS中,通过二值图像处理技术可以有效地计算注意力图,以激活给定布尔图上具有封闭外部轮廓的区域。 然后,根据给定的随机采样布尔映射集,将显着性建模为预期的关注水平。 预期注意图,即 平均注意力图是全分辨率的初步显着图,可以针对特定任务(例如注视预测或显着物体检测)进行进一步处理[5]。 图2显示了用于眼睛注视预测和显着物体检测的BMS两种显着性图。 图2:(a)是来自ImgSal眼动追踪数据集的样本图像[27]; (b)是groundtruth真眼注视热图; (c)和(d)分别是BMS生成的用于视力预测和显着物体检测的显着性图。 我们针对五个基准眼动追踪数据集上的十个最新显着性模型评估了BMS。 比较的模型包括一些非常新的模型,这些模型在本文测试的某些数据集中显示出领先地位。 尽管BMS非常简单,但它是唯一在所有五个基准数据集上始终达到最新性能的方法。 我们还通过定性和定量结果表明BMS的输出可用于显着物体检测。
大多数以前的显着性模型都使用中心环绕滤波器或图像统计信息来识别复杂(局部复杂性/对比度)或外观很少(稀有性/不可能性)的显着补丁。 在[19]中使用中心环绕差来检测多尺度特征图上的显眼区域,然后对所得的显眼图进行归一化和融合。 概率的负对数,即香农的自我信息,在[6]和[39]中用于衡量局部补丁作为自下而上显着性线索的可能性。 此外,[18]通过“贝叶斯惊奇”来确定局部区域的可能性,该概念旨在量化数据如何改变观察者的先验信念。 最近,[10]使用了一个分层加白的特征空间,其中矢量范数的平方用作显着性度量,以测量像素特征矢量偏离数据中心的距离。 除了显着性的对比和稀有性先验,[25]还使用了局部对称性。 与基于对比度,稀有性和对称性等属性的模型不同,另一个显着性模型家族基于光谱域分析[15、14、33、27]。 然而,[27]表明,一些以前基于频谱分析的方法在某种意义上等效于局部梯度算子加上自然图像上的高斯模糊,因此无法很好地检测到较大的显着区域。 为了克服这个限制,[27]提出了一种基于频谱尺度空间分析的方法。 一些模型使用机器学习来学习显着性。 Kienzel等。 [21]学习基于眼睛跟踪数据的图像补丁的内核支持向量机(SVM)。 Judd等。 [20]使用低,中,高级功能的组合来训练SVM,并且显着性分类是以逐像素方式进行的。 与以前的方法不同,建议的BMS不依赖中心环绕滤波,特征统计分析,频谱变换,离线学习或多尺度处理。 取而代之的是,它利用了规模结构不变的拓扑结构信息,并且已知这些信息对视觉注意力有很大的影响[37,8]。 前面提到的大多数模型都没有反映这一方面。 仅进行了几次尝试来利用场景的拓扑结构进行显着性检测。 在[13]中,基于低级特征图和中间结果构造了马尔可夫链图,其平衡分布被用作激活和归一化的输出。 在[36]中,局部补丁的显着性是在图形模型上通过其到图像边界的最短距离来测量的。 图形模型的边缘权重是根据局部不相似性进行计算的,并专门针对对象分割的需求进行了调整。 与[13,36]相比,BMS通过布尔映射以更明确,更简单的方式利用拓扑线索。 [16]的显着区域检测方法还采用了特征通道阈值化步骤。 然而,仅对每个特征通道应用一次阈值处理以确定的方式提取感兴趣区域,并且后续处理严重依赖于原始图像。 相反,BMS完全基于随机阈值布尔映射集计算显着性。
为了推导自下而上的显着性模型,我们借鉴了布尔图的视觉注意力[17]理论中提出的布尔图概念,其中观察者对场景的瞬时意识可以用布尔图表示。 我们假设BMS中的布尔图是从随机选择的特征通道生成的,布尔图B对视觉注意的影响可以由注意力图A(B)表示,该图突出显示B上吸引视觉注意的区域。 然后,根据均值注意力图A对随机生成的布尔图进行显着性建模: I是输入图像。 可以进一步对A- 进行后处理,以形成针对某些特定任务的最终显着性图S。 BMS的流水线如图3所示。给定图像I,一组布尔映射B = {B1,B2,…。 。 。 ,Bn}生成。 基于图形地面隔离的格式塔原理,为每个布尔图Bi计算一个关注图Ai。 然后,通过将所得注意图进行线性组合来获得平均注意图A。 最后,对平均注意力图进行一些后处理以输出显着性图S。每个步骤将在以下部分中描述。
BMS根据特征通道上的先验分布和阈值,通过随机阈值输入图像的特征图来生成一组布尔图 如果在输入图上像素值大于θ,则函数THRESH(。,θ)将1分配给像素,否则将0分配给像素。 φ(I)表示I的特征图,其值假定在0到255之间。pφ和pθ分别表示φ和θ的先验分布。 特征通道可以包含颜色,方向,深度,运动等多个特征。在这项工作中,我们将在一个实现中演示仅对静止图像使用颜色的实现。 假设φ(I)是I的颜色通道,并且不失一般性,则阈值θ是从[0,255]上的均匀分布得出的,因为任何θ分布具有累积分布F(θ)的影响 ,等效于在每个颜色通道上应用映射函数255·F-1(。)。 因此,对于给定的图像,生成的布尔映射的分布仅由颜色空间的选择和用于颜色通道选择的先验分布来确定。 布尔图的生成方式应使更多的显着区域更有可能与周围的背景分离。 给定阈值θ的均匀分布,BMS的理想色彩空间应该是其距离度量反映色彩之间的视觉差异的空间。 因此,我们选择以感知均匀性闻名的CIE Lab颜色空间。 为了保持一致,将Lab空间中每个通道的范围转换并缩放为[0,255]。 我们假设实验室空间的三个通道在视觉感知中起着同等重要的作用。 为了生成图像的布尔映射,我们简单地枚举三个通道,并以固定的步长δ采样从0到255的阈值θ。 每个布尔映射的反向副本也包括在输出中,以便考虑反向区域选择。 然后将具有内核ωo的打开操作应用于每个布尔图,以去除噪声。
给定一个布尔图B,BMS根据格式塔原则将人物-背景分割起来,计算注意力图A(B):被包围的区域更有可能被视为人物[30]。 布尔映射中的周围环境很好地定义为具有封闭外部轮廓的连接区域(值1或0)的属性。 根据此定义,仅连接到图像边界的区域不会被包围。 为了计算注意力图,BMS将1分配给周围区域的并集,将0分配给其余的图。 通过使用泛洪填充算法来掩盖连接到图像边界的所有像素,可以有效地实现此操作。 需要在线性组合步骤之前对所得的注意力图进行归一化,以便具有较小集中活动区域的注意力图将得到更多的重视。 在以前的工作中,出于相似的目的,已经使用了不同的归一化方案[19,13]。 对于眼睛注视预测,BMS使用简单的L2归一化,即 将矢量化地图除以L2范数,以强调活动区域较小的注意力地图。 与L1规范化相比,L2规范化对活动区域极小的注意力图不太敏感,否则它将主导融合过程。 为了进一步惩罚具有较小分散活动区域的注意力图,我们在归一化之前使用内核宽度ωd1扩展注意力图。 所有的注意力图都线性地组合成一个全分辨率的平均注意力图A。 平均注意力图可以针对特定任务进行进一步处理。 算法1总结了BMS的整个算法。
在本节中,我们评估BMS在眼球注视预测中的性能。 实施细节。 首先将每个输入图像的大小调整为600像素,打开操作的核心宽度ωo固定为5像素。 采样步长δ设置为8,膨胀核宽度ωd1固定为7。 我们对A′进行后处理,以通过具有标准偏差(STD)σ的高斯模糊产生显着性图S。 但是,强烈的高斯模糊会去除平均注意力图上的小峰,这有时是不可取的。 为了控制该因子,我们在高斯模糊之前使用内核宽度为ωd2的膨胀运算。 我们发现这种膨胀操作不会提高其他比较方法的性能。 通过实验,我们发现通常将σ设置为20并将ωd2设置为23即可。 我们在以下实验中修复这些参数。 源代码可在我们的网站上找到
与表2所示的十种最先进的显着性方法相比,我们已经对算法进行了定量评估。这些基线方法的代码可在作者的网站2上找到,并且使用了作者设置的默认配置。 在评估Judd模型[20]时,我们从物体检测器中删除了这些功能以进行公平的比较,这也略微改善了Judd模型的改编后的AUC分数。 数据集。 该方法在五个基准眼动跟踪数据集上进行了评估:MIT [20](MIT数据集),Toronto [6],Kootstra [24],Cerf [7](FIFA数据集)和ImgSal [27]。 这些数据集可在作者的网站上找到。 表1汇总了这些数据集的一些统计信息和功能。 评估指标。 用于显着性方法评估的最广泛使用的指标之一是ROC曲线下面积(AUC)指标。 然而,边界切割和中心偏置设置等因素已显示出对AUC的巨大影响[34,39]。 例如,在[39]中,已经证明,静态高斯斑点在多伦多数据集上的平均ROC得分为0.80,超过了许多最新技术,并且在图像中未使用任何自底向上的功能 。 为了控制这些因素,我们采用[34,39]提出的改组AUC,它已成为许多近期著作[33,14,3,10]中使用的标准评估方法。 在改组的AUC指标下,完美的预测将得出1.0的AUC,而任何静态显着性图将给出约0.5的分数。 我们使用[33,3]的作者对shuffled-AUC的实现。 有关shuffled-AUC实施的详细信息,请读者参考[39]。
AUC分数对在显着图上应用的模糊程度很敏感。 如[14,3],我们通过改变高斯模糊标准差(STD)来平滑每种方法的显着性图,并在图4中显示了其对每种方法在不同数据集上的平均改组AUC分数的影响。 表2中列出了每个模型的最佳分数以及相应的高斯模糊STD。我们还报告了使用RGB颜色空间的BMS结果。
BMS在所有五个数据集上均具有最先进的性能,并具有最佳的平均AUC评分(请参见表2)。 BMS色彩空间的选择对每个数据集都有一致的影响。 通过将RGB空间替换为Lab空间,BMS的平均得分在每个数据集上的下降幅度超过0.01。 该结果与3.1节中的分析一致。 对不同数据集的评估会给出不同的方法等级,因为这些数据集在许多方面都有所不同,例如视觉刺激的选择,参与者的组成和实验环境。 尽管在某些数据集上,几种比较方法具有与BMS相似的性能,例如 MIT和Kootstra上的AWS [10],多伦多和Cerf上的∆QDCT [33],ImgSal上的GBVS [13],在这五个数据集上都没有一个获得最高的性能。 我们注意到,对于所有比较的方法,在至少一个数据集上,它们的平均AUC评分比BMS的平均评分差0.025多。 所有方法在Kootstra数据集上的表现都非常差,观察者之间的一致性被证明很低[3]。 平均而言,使用Lab或RGB的BMS,以及诸如AWS [10],∆QDCT [33],CAS [11]和SigSal [14]之类的最新方法都比其他方法具有更好的性能。 GBVS [13]在MIT,Toronto,Kootstra和Cerf数据集上的AUC评分明显较差。 有趣的是,它在ImgSal数据集上排名第二。
在本节中,我们显示BMS在显着目标检测中也很有用。 显着物体检测旨在从背景中分割显着物体。 与用于眼球注视预测的模型相比,用于显着物体检测的模型具有不同的重点。 由于眼睛的注视物稀疏分布并且具有一定程度的不确定性,因此相应的显着性图通常高度模糊并且具有很高的选择性。 但是,显着的对象检测需要对象级别的分割,这意味着相应的显着图应具有统一突出显示的显着区域和清晰定义的区域边界的高分辨率。 我们使用与以前相同的样本步长δ,但将ωo设置为13可以从布尔映射中删除更多的孤立区域。 我们还关闭了注意力图计算中的扩张操作(即ωd1= 1),以提高注意力图的准确性。 注意图在线性组合之前未进行归一化,可以将其视为使用L∞归一化的隐式方法。 这样,将更均匀地突出显示不同大小的对象区域。 然后,我们使用重构打开操作和内核半径为15的重构关闭操作[35]对BMS的平均注意力图进行后处理,以平滑显着图但保留边界细节。 我们在ASD数据集上定量评估BMS [1],该数据集包含1000张图像和真实的分割蒙版。 BMS与六种最新的显着物体检测方法(HSal [38],GSSP,GSGD [36],RC,HC [9]和FT [1])以及一些领先的眼睛模型进行了比较 注视预测。 与先前的工作[1,36]相似,我们将显着性图二值化为固定阈值,并计算每种方法的平均精度和召回率(PR)。 通过改变二值化的阈值,可以获得每种方法的PR曲线。 图7显示了ASD数据集上不同方法的PR曲线。 根据这些结果,BMS可与HSal [38]和GSSP [36]相提并论,并且明显优于ASD数据集上的其他先前方法。 与HSal [38]相比,当召回率低于92%时,BMS的精度较低,但是随着召回率的提高,BMS的精度会略高。 基于区域的方法GSSP [36]和RC [9]比基于网格/直方图的变量GSGD [36]和HC [9]表现更好。 眼动注视预测的领先模型的性能明显优于显着物体检测方法。 图8显示了一些样本图像和结果。 上一部分中使用的ImgSal数据集[27]还具有由19个受试者标记的地面真相显着区域。 我们在图9中显示了该数据集的一些结果。该数据集的标记显着区域不是很精确,因此不适合使用PR度量进行定量评估。
在这项工作中,提出了一种基于布尔图的新的显着性模型,以利用周围的线索来帮助图形-真实值分离。 该模型借鉴了视觉关注的布尔图理论[17]的布尔图概念,并通过一组布尔图来表征图像。 这种表示导致了用于显着性检测的有效算法。 BMS是唯一一个在五个基准眼动追踪数据集上始终都能达到最先进性能的模型,并且它还被证明在显着物体检测中很有用。 我们仅使用颜色通道演示了BMS的有效性,而BMS也应适用于其他特征通道,例如方向,深度和运动。 其他功能的测试仍在进行中,以备将来使用。 未来工作的另一个有趣方向是通过结合更多凸性,对称性和熟悉性等显着性提示来改进注意力图的计算。 这可能有助于弥补以下局限性:仅使用周围环境提示无法很好地检测出接触图像边界的显着区域。