视觉注意力建模用于显著性检测的综合方法
立即解锁
发布时间: 2025-08-17 01:26:57 订阅数: 1 

### 视觉注意力建模用于显著性检测的综合方法
#### 1. 兴趣点检测与模型性能
在视频分析中,使用手持移动摄像机拍摄的视频原始帧,通过不同的检测器可以检测到具有空间和时间内容的兴趣点。这些检测器包括周期性检测器、Kienzle 等人的检测器、3 - D Harris 角点检测器、Itti 的自底向上模型以及提出的学习型检测器。
同时,研究人员尝试构建一个使用串联特征向量的单一神经网络,但发现这种方法的性能不如为每个特征使用单独的神经网络。这可能是由于串联特征向量的高维度导致的。
显著性模型基于实验中所有用户共同观看的区域来检测显著区域。例如,在新闻视频中,大多数观众会关注新闻主播的面部,因此学习模型会将对应于说话面部的区域检测为显著区域。
#### 2. 参数对特征图的影响
这种方法中需要考虑的参数包括空间窗口大小和时间描述符的长度。
- **空间窗口大小**:不同大小的空间窗口对颜色特征图有显著影响。使用较大的窗口(如 33×33)时,由于计算直方图时使用了更多的像素位置,会产生平滑效果,抑制了单个像素值引起的直方图畸变,但细节信息无法被捕捉,会突出图像帧中的整个区域块;而使用较小的窗口(如 3×3)时,直方图对单个像素强度极为敏感,虽然能得到更准确的特征图,但也更容易受到噪声的影响。在本次研究中,使用了 11×11 像素的中等大小窗口,以在两者之间取得平衡。
| 窗口大小 | 效果 |
| ---- | ---- |
| 3×3 | 对单个像素强度敏感,特征图准确但易受噪声影响 |
| 5×5 | - |
| 11×11 | 平衡细节与抗噪性 |
| 17×17 | - |
| 33×33 | 平滑效果明显,细节丢失 |
- **时间描述符长度**:时间描述符的性质因应用而异。当前系统实现中使用的是非因果时间描述符,考虑了当前像素在之前和未来帧中的时间邻域像素。但在实时实现中,只能使用之前和当前帧的像素来构建描述符。研究中使用了前九帧和后九帧的像素来构建时间描述符。
```mermaid
graph LR
A[空间窗口大小] --> B[大窗口: 平滑效果, 细节丢失]
A --> C[小窗口: 敏感, 易受噪声影响]
D[时间描述符长度] --> E[非因果: 前后帧像素]
D --> F[实时: 仅前和当前帧像素]
```
##
0
0
复制全文
相关推荐










