视频中兴趣点对眼睛位置预测的相关性及葡萄分级计算机视觉系统
立即解锁
发布时间: 2025-08-20 02:15:58 阅读量: 1 订阅数: 5 


智能环境下的多模态注意力系统设计与实现
### 视频中兴趣点对眼睛位置预测的相关性及葡萄分级计算机视觉系统
在计算机视觉领域,有两个重要的研究方向值得关注,一是视频中兴趣点对眼睛位置的预测,二是葡萄酒酒窖中葡萄的自动分级。下面将详细探讨这两个方面的内容。
#### 视频中兴趣点对眼睛位置的预测
在视频分析里,了解人类眼睛的注视位置是一项关键任务。为了研究兴趣点与眼睛位置的相关性,研究人员进行了一系列实验。
##### 眼睛位置密度图和兴趣图
研究人员把眼睛位置实验和兴趣点检测器得到的点集,通过对每个点应用二维空间高斯滤波器转换为地图。对于不同视频片段的每一帧,会生成三种地图:
- **人眼位置密度图(Mh)**:对每个眼睛位置点应用二维高斯滤波得到,在研究中作为参考图。
- **SIP 兴趣图(MSIP)**:对应 SIP 检测器,同样通过对 SIP 点应用相同的二维高斯滤波获得。
- **STIP 兴趣图(MST IP)**:对应 STIP 检测器,直接使用归一化的显著性函数 R(x, y, t) 并应用二维高斯滤波器。
人眼位置密度图与两个不同的兴趣图看起来有所不同,与兴趣图相比,人眼位置密度图上的高亮区域很少。高亮区域重合度越高,归一化扫描信号(NSS)值就越高。为了确定 MSIP 和 MST IP 图相对于人眼位置密度图 Mh 的相关性,需要为每个兴趣图计算 NSS。
##### 全局数据库分析
对 NSS 标准进行了时间分析,结果显示,对于 SIP 和 STIP,NSS 值均为正,这表明兴趣点对眼睛位置预测是相关的。两条曲线在前十帧后的表现相似,但在开始阶段差异较大。这是因为在两个片段之间的镜头切换后,人类的目光会在短时间内停留在前一个镜头的位置,然后才会移向新镜头的有趣区域。SIP 兴趣图以静态方式突出兴趣点,镜头切换后兴趣点会立即改变,与注视区域不同,所以 NSS 较低;而 STIP 兴趣图使用滑动窗口构建,考虑了当前帧前后的多个帧,在新片段的前几帧,STIP 显著性图会突出前一个镜头的兴趣点,这些点仍会被受试者注视。
值得注意的是,大约 65% 的片段中,NSSSIP 值高于 NSSST IP 值,但 NSSST IP 的平均值(0.54)高于 NSSSIP 的平均值(0.50),当 NSSST IP 高于 NSSSIP 时,差距较为显著。
##### 语义类别分析
研究人员还根据视频片段的语义类别进行了分析,选取了四个具有代表性的类别:交通、团队运动、面部和/或手部、演示。以下是不同类别的 NSS 值总结:
| 类别 | NSSSIP 平均 | NSSSIP 最大 | NSSST IP 平均 | NSSST IP 最大 | 片段数量 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 交通 | 0.86 | 2.10 | 1.26 | 4.24 | 18 (6%) |
| 团队运动 | 0.17 | 0.72 | 0.77 | 1.98 | 44 (14%) |
| 面部/手部 | 1.85 | 4.78 | 0.39 | 3.06 | 47 (15%) |
| 演示 | 0.19 | 0.78 | 0.23 | 0.95 | 30 (10%) |
- **交通类**:交通场景中的车辆运动具有一定的规律性,但也存在诸如变道、刹车、事故等不连续变化。STIP 能够
0
0
复制全文
相关推荐








