无监督视频对象分割技术:COSNet与AGNN的探索
发布时间: 2025-08-17 00:02:36 阅读量: 1 订阅数: 1 

### 无监督视频对象分割技术:COSNet与AGNN的探索
在视频处理领域,无监督视频对象分割(UVOS)是一项极具挑战性的任务。它旨在自动确定并分离视频中每一帧的主要对象,无需人工标注。本文将深入介绍两种相关技术:COSNet和AGNN。
#### 1. COSNet:捕捉全局上下文的利器
COSNet将ZVOS视为一个时间一致性捕捉任务,强调全局上下文的价值。与依赖局部和顺序信息的现有ZVOS方法不同,COSNet采用可微的协同注意力机制来捕捉帧对(或帧组)之间的相关信息。
通过在图像和视频训练数据上交替进行网络训练,COSNet学会了在每一帧中区分主要对象和背景,并捕捉帧间的时间相关性。在三个具有代表性的视频分割数据集上,COSNet取得了卓越的性能。大量实验结果证明,即使在分割过程中没有标注,COSNet也能有效地捕捉常见对象并抑制相似目标的干扰。
COSNet不仅是处理顺序数据学习的通用框架,还可以轻松扩展到其他视频分析任务,如视频显著性检测和光流估计。
#### 2. AGNN:基于图神经网络的UVOS解决方案
AGNN从图神经网络的角度出发,将UVOS任务重新定义为视频图上的迭代信息融合过程。
##### 2.1 基本原理
AGNN构建了一个全连接图,将帧表示为节点,任意帧对之间的关系表示为边。底层的成对关系通过可微的注意力机制描述。通过参数化消息传递,AGNN能够有效地捕捉和挖掘视频帧之间更丰富、更高阶的关系,从而更全面地理解视频内容并进行更准确的前景估计。
在三个视频分割数据集上的实验结果表明,AGNN在每种情况下都创造了新的技术水平。为了进一步证明其泛化能力,AGNN还被扩展到图像对象共分割(IOCS)任务。
##### 2.2 算法流程
在详细介绍AGNN之前,我们先了解一下GNN模型的通用公式。
GNN基于深度神经网络和图论,能够有效地聚合图域中数据的信息。一个GNN模型由图 \(G = (V, E)\) 定义,其中每个节点 \(v_i \in V\) 具有唯一的值,并与初始节点表示 \(v_i\) 相关联;每条边 \(e_{i,j} \in E\) 是一个对 \((v_i, v_j)\),并具有边表示 \(e_{i,j}\)。
GNN通过两个阶段将图 \(G\) 映射到节点输出 \(\{o_i\}_{i=1}^{|V|}\):
- **参数化消息传递阶段**:运行 \(K\) 步,递归地传播消息并更新节点表示。在第 \(k\) 次迭代中,对于每个节点 \(v_i\),根据其收到的消息 \(m_i^k\) 和先前状态 \(h_i^{k-1}\) 更新其状态:
- 消息聚合:\(m_i^k = \sum_{v_j \in N_i} m_{j,i}^k = \sum_{v_j \in N_i} M(h_j^{k-1}, e_{i,j}^{k-1})\)
- 节点表示更新:\(h_i^k = U(h_i^{k-1}, m_i^k)\)
其中 \(h_i^0 = v_i\),\(M(\cdot)\) 和 \(U(\cdot)\) 分别是消息函数和状态更新函数。经过 \(k\) 次聚合,\(h_i^k\) 捕捉了节点 \(v_i\) 的 \(k\) 跳邻域内的关系。
- **读出阶段**:通过读出函数 \(R(\cdot)\) 将最终 \(K\) 次迭代的节点表示 \(h_i^K\) 映射到节点输出:
- 读出:\(o_i = R(h_i^K)\)
消息函数 \(M\)、更新函数 \(U\) 和读出函数 \(R\) 都是可学习的可微函数。
AGNN在传统全连接GNN的基础上进行了扩展,以保留空间特征并通过可微注意力机制捕捉成对关系。
##### 2.3 模型组件
- **基于FCN的节点嵌入**:利用DeepLabV3提取有效帧特征作为节点表示。对于节点 \(v_i\),其初始嵌入 \(h_i^0\) 计算如下:
- \(h_i^0 = v_i = F_{DeepLab}(I_i) \in \mathbb{R}^{W \times H \times C}\)
其中 \(h_i^0\) 是一个具有 \(W \times H\) 空间分辨率和 \(C\) 通道的3D张量特征,保留了空间信息和高级语义信息。
- **基于内部注意力的循环边嵌入**:循环边 \(e_{i,i} \in E\) 连接节点到自身,其嵌入 \(e_{i,i}^k\) 用于捕捉节点表示 \(h_i^k\) 内的内部关系。通过内部注意力机制计算:
- \(e_{i,i}^k = F_{intra-att}(h_i^k) \in \mathbb{R}^{W \times H \times C}\)
- \(= \alpha \text{softmax}((W_f * h_i^k)(W_h * h_i^k)^T)(W_l * h_i^k) + h_i^k\)
其中 \(\alpha\) 是可学习的比例参数,\(W_f\)、\(W_h\) 和 \(W_l\) 是可学习的卷积核。
- **基于交互注意力的直线边嵌入**:直线边 \(e_{i,j} \in E\) 连接两个不同节点 \(v_i\) 和 \(v_j\),其嵌入 \(e_{i,j}^k\) 用于挖掘节点嵌入空间中从 \(v_i\) 到 \(v_j\) 的关系。通过交互注意力机制计算:
- \(e_{i,j}^k = F_{inter-att}(h_i^k, h_j^k) = h_i^k W_c h_j^k^T \in \mathbb{R}^{(WH) \times (WH)}\)
- \(e_{j,i}^k = F_{inter-att}(h_j^k, h_i^k) = h_j^k W_c^T h_i^k^T \in \mathbb{R}^{(WH) \times (WH)}\)
其中 \(W_c \in \mathbb{R}^{C \times C}\) 是可学习的权重矩阵。
- **门控消息聚合**:在AGNN中,对于自环传递的消息,将循环边嵌入 \(e_{i,j}^{k-1}\) 本身视为消息:
- \(m_{i,i}^k = e_{i,i}^{k-1} \in \mathbb{R}^{W \times H \times C}\)
对于从节点 \(v_j\) 传递到 \(v_i\) 的消息 \(m_{j,i}\):
- \(m_{j,i}^k = M(h_j^{k-1}, e_{i,j}^{k-1}) = \text{softmax}(e_{i,j}^{k-1}) h_j^{k-1} \in \mathbb{R}^{(WH) \times C}\)
为了过滤掉噪声帧中的无关信息,我们应用可学习的门 \(G(\cdot)\) 来测量消息 \(m_{j,i}\) 的置信度:
- \(g_{j,i}^k = G(m_{j,i}^k) = \sigma(F_{GAP}(W_g * m_{j,i}^k + b_g)) \in [0, 1]^C\)
然后通过门控求和收集来自邻居和自环的消息:
- \(m_i^k = \sum_{v_j \in V} g_{j,i}^k * m_{j,i}^k \in \mathbb{R}^{W \times H \times C}\)
- **基于ConvGRU的节点状态更新**:在第 \(k\) 步,节点 \(v_i\) 通过考虑其先前状态 \(h_i^{k-1}\) 和收到的消息 \(m_i^k\) 获得新状态 \(h_i^k\)。为了保留空间信息,使用ConvGRU更新节点状态:
- \(h_i^k = U_{ConvGRU}(h_i^{k-1}, m_i^k) \in \mathbb{R}^{W \times H \times C}\)
- **读出函数**:经过 \(K\) 次消息传递迭代后,通过读出函数 \(R(\cdot)\) 从最终节点状态 \(h_i^K\) 获得分割预测图 \(\hat{S
0
0
相关推荐










