视觉注意力建模用于显著性检测的集成方法
立即解锁
发布时间: 2025-08-17 01:26:57 阅读量: 1 订阅数: 3 

# 视觉注意力建模用于显著性检测的集成方法
## 1 现有方法的局限性
当前基于视觉注意力对显著性进行建模的方法大多侧重于自下而上的注意力。这些方法独立于视频上下文,旨在为各类视频检测具有标准特征集的区域。不过,它们存在诸多局限性:
- **仅依赖时间描述符**:部分方法仅使用时间描述符,而单一的时间描述符不足以表征一个区域。例如,在存在相机平移或倾斜等运动时,所有具有边缘或纹理的区域都会被分类为显著区域,因为该方法纯粹依赖运动。
- **忽视空间特征**:以往的工作忽略了人眼跟踪提供的空间兴趣区域这一重要信息,在构建特征向量时未考虑空间特征,导致所有有运动的区域都被分类为显著区域,无法区分真正显著的区域和仅具有运动的区域。
- **难以处理相机诱导运动**:一些基于人眼运动的方法是基于运动的,无法处理任何类型的相机诱导运动。在真实世界的新闻视频中,这些方法会检测出所有具有运动和纹理的区域,无法区分与新闻视频实际相关的区域和背景干扰。
- **自下而上方法的局限性**:自下而上的方法旨在检测与图像其余部分显著不同的区域,但在不存在此类区域的图像中,它们无法突出显示显著区域。而且,纯粹基于视觉的方法未考虑视频的应用场景,而“有趣”的区域取决于视频的类别,某一类视频中显著的区域在另一类视频中可能并不相关。
## 2 学习基于注意力的显著性:概念框架
### 2.1 学习特定上下文的显著性
学习特定上下文显著性的框架如下:
1. **数据收集**:记录多个用户自然观看属于单一给定应用的视频时的眼动数据。注视点对应的区域代表视觉显著区域,作为训练分类器的正样本。通过从均匀分布中随机选择视频中的区域生成负样本,若样本位于正样本的邻域内则被拒绝。
2. **特征提取**:提取与这些样本对应的各种特征的描述符,实验表明运动、颜色和方向是描述区域的良好特征。
3. **分类器训练**:使用这些特征描述符训练单个分类器,然后学习另一个分类器来确定各个特征的权重,以将它们组合成一个单一的显著性图,该图被解释为二维概率分布。
### 2.2 预测特定上下文的显著性
预测特定上下文显著性的框架如下:
1. **特征提取**:对于传入的图像帧,为每个像素位置提取各种特征描述符。
2. **特征图预测**:使用单个分类器预测基于相应特征的显著性特征图。
3. **最终显著性图生成**:将这些单个特征图的输出作为最终分类器的输入,得到最终的显著性图。该显著性图可以解释为单个特征图的加权和,权重由该分类器确定。
## 3 实验与结果
### 3.1 实验设置
- **设备**:使用Tobii 1750眼动仪记录眼动数据,该设备集成在21英寸显示器中,采样频率为50Hz,精度为0.5度。
- **参与者**:11名志愿者参与实验,他们在不知情的情况下自然观看新闻视频。
- **视频数据**:实验使用从流行新闻广播频道下载的36个不同的新闻视频片段,视频中除了新闻主播外还有显著的运动,包括新闻频道的闪烁标志、相机移动、交通等背景干扰。在每个视频之间,显示4秒的黑屏,以避免前一个视频对初始眼动的影响。
### 3.2 实现
#### 3.2.1 特征向量构建
- **颜色强度直方图**:将对应于红、绿、蓝的三个单独的强度直方图连接起来,每个直方图使用10个等间距的区间,得到长度为30的颜色描述符。特征向量 $F_c$ 表示为:
\[
F_c(p) =
\begin{bmatrix}
H_r(I_p(x_p,y_p)) & H_g(I_p(x_p,y_p)) & H_b(I_p(x_p,y_p))
\end{bmatrix}
\]
其中,$H\{.\}$ 是图像中给定点的单个颜色分量的强度直方图。
- **Gabor方向**:为了捕捉样本的方向信息,采用三个尺度和六个方向的二维Gabor响应,特征向量长度为18。Gabor特征向量 $F_g$ 表示为:
\[
F_g(p) = G(I_p(x_p,y_p),s,o)
\]
其中,$G\{.\}$ 表示二维Gabor滤波器响应,$s$ 和 $o$
0
0
复制全文
相关推荐










