无监督视频对象分割技术：COSNet与AGNN的探索

### 无监督视频对象分割技术：COSNet与AGNN的探索在视频处理领域，无监督视频对象分割（UVOS）是一项极具挑战性的任务。它旨在自动确定并分离视频中每一帧的主要对象，无需人工标注。本文将深入介绍两种相关技术：COSNet和AGNN。 #### 1. COSNet：捕捉全局上下文的利器 COSNet将ZVOS视为一个时间一致性捕捉任务，强调全局上下文的价值。与依赖局部和顺序信息的现有ZVOS方法不同，COSNet采用可微的协同注意力机制来捕捉帧对（或帧组）之间的相关信息。通过在图像和视频训练数据上交替进行网络训练，COSNet学会了在每一帧中区分主要对象和背景，并捕捉帧间的时间相关性。在三个具有代表性的视频分割数据集上，COSNet取得了卓越的性能。大量实验结果证明，即使在分割过程中没有标注，COSNet也能有效地捕捉常见对象并抑制相似目标的干扰。 COSNet不仅是处理顺序数据学习的通用框架，还可以轻松扩展到其他视频分析任务，如视频显著性检测和光流估计。 #### 2. AGNN：基于图神经网络的UVOS解决方案 AGNN从图神经网络的角度出发，将UVOS任务重新定义为视频图上的迭代信息融合过程。 ##### 2.1 基本原理 AGNN构建了一个全连接图，将帧表示为节点，任意帧对之间的关系表示为边。底层的成对关系通过可微的注意力机制描述。通过参数化消息传递，AGNN能够有效地捕捉和挖掘视频帧之间更丰富、更高阶的关系，从而更全面地理解视频内容并进行更准确的前景估计。在三个视频分割数据集上的实验结果表明，AGNN在每种情况下都创造了新的技术水平。为了进一步证明其泛化能力，AGNN还被扩展到图像对象共分割（IOCS）任务。 ##### 2.2 算法流程在详细介绍AGNN之前，我们先了解一下GNN模型的通用公式。 GNN基于深度神经网络和图论，能够有效地聚合图域中数据的信息。一个GNN模型由图 \(G = (V, E)\) 定义，其中每个节点 \(v_i \in V\) 具有唯一的值，并与初始节点表示 \(v_i\) 相关联；每条边 \(e_{i,j} \in E\) 是一个对 \((v_i, v_j)\)，并具有边表示 \(e_{i,j}\)。 GNN通过两个阶段将图 \(G\) 映射到节点输出 \(\{o_i\}_{i=1}^{|V|}\)： - **参数化消息传递阶段**：运行 \(K\) 步，递归地传播消息并更新节点表示。在第 \(k\) 次迭代中，对于每个节点 \(v_i\)，根据其收到的消息 \(m_i^k\) 和先前状态 \(h_i^{k-1}\) 更新其状态： - 消息聚合：\(m_i^k = \sum_{v_j \in N_i} m_{j,i}^k = \sum_{v_j \in N_i} M(h_j^{k-1}, e_{i,j}^{k-1})\) - 节点表示更新：\(h_i^k = U(h_i^{k-1}, m_i^k)\) 其中 \(h_i^0 = v_i\)，\(M(\cdot)\) 和 \(U(\cdot)\) 分别是消息函数和状态更新函数。经过 \(k\) 次聚合，\(h_i^k\) 捕捉了节点 \(v_i\) 的 \(k\) 跳邻域内的关系。 - **读出阶段**：通过读出函数 \(R(\cdot)\) 将最终 \(K\) 次迭代的节点表示 \(h_i^K\) 映射到节点输出： - 读出：\(o_i = R(h_i^K)\) 消息函数 \(M\)、更新函数 \(U\) 和读出函数 \(R\) 都是可学习的可微函数。 AGNN在传统全连接GNN的基础上进行了扩展，以保留空间特征并通过可微注意力机制捕捉成对关系。 ##### 2.3 模型组件 - **基于FCN的节点嵌入**：利用DeepLabV3提取有效帧特征作为节点表示。对于节点 \(v_i\)，其初始嵌入 \(h_i^0\) 计算如下： - \(h_i^0 = v_i = F_{DeepLab}(I_i) \in \mathbb{R}^{W \times H \times C}\) 其中 \(h_i^0\) 是一个具有 \(W \times H\) 空间分辨率和 \(C\) 通道的3D张量特征，保留了空间信息和高级语义信息。 - **基于内部注意力的循环边嵌入**：循环边 \(e_{i,i} \in E\) 连接节点到自身，其嵌入 \(e_{i,i}^k\) 用于捕捉节点表示 \(h_i^k\) 内的内部关系。通过内部注意力机制计算： - \(e_{i,i}^k = F_{intra-att}(h_i^k) \in \mathbb{R}^{W \times H \times C}\) - \(= \alpha \text{softmax}((W_f * h_i^k)(W_h * h_i^k)^T)(W_l * h_i^k) + h_i^k\) 其中 \(\alpha\) 是可学习的比例参数，\(W_f\)、\(W_h\) 和 \(W_l\) 是可学习的卷积核。 - **基于交互注意力的直线边嵌入**：直线边 \(e_{i,j} \in E\) 连接两个不同节点 \(v_i\) 和 \(v_j\)，其嵌入 \(e_{i,j}^k\) 用于挖掘节点嵌入空间中从 \(v_i\) 到 \(v_j\) 的关系。通过交互注意力机制计算： - \(e_{i,j}^k = F_{inter-att}(h_i^k, h_j^k) = h_i^k W_c h_j^k^T \in \mathbb{R}^{(WH) \times (WH)}\) - \(e_{j,i}^k = F_{inter-att}(h_j^k, h_i^k) = h_j^k W_c^T h_i^k^T \in \mathbb{R}^{(WH) \times (WH)}\) 其中 \(W_c \in \mathbb{R}^{C \times C}\) 是可学习的权重矩阵。 - **门控消息聚合**：在AGNN中，对于自环传递的消息，将循环边嵌入 \(e_{i,j}^{k-1}\) 本身视为消息： - \(m_{i,i}^k = e_{i,i}^{k-1} \in \mathbb{R}^{W \times H \times C}\) 对于从节点 \(v_j\) 传递到 \(v_i\) 的消息 \(m_{j,i}\)： - \(m_{j,i}^k = M(h_j^{k-1}, e_{i,j}^{k-1}) = \text{softmax}(e_{i,j}^{k-1}) h_j^{k-1} \in \mathbb{R}^{(WH) \times C}\) 为了过滤掉噪声帧中的无关信息，我们应用可学习的门 \(G(\cdot)\) 来测量消息 \(m_{j,i}\) 的置信度： - \(g_{j,i}^k = G(m_{j,i}^k) = \sigma(F_{GAP}(W_g * m_{j,i}^k + b_g)) \in [0, 1]^C\) 然后通过门控求和收集来自邻居和自环的消息： - \(m_i^k = \sum_{v_j \in V} g_{j,i}^k * m_{j,i}^k \in \mathbb{R}^{W \times H \times C}\) - **基于ConvGRU的节点状态更新**：在第 \(k\) 步，节点 \(v_i\) 通过考虑其先前状态 \(h_i^{k-1}\) 和收到的消息 \(m_i^k\) 获得新状态 \(h_i^k\)。为了保留空间信息，使用ConvGRU更新节点状态： - \(h_i^k = U_{ConvGRU}(h_i^{k-1}, m_i^k) \in \mathbb{R}^{W \times H \times C}\) - **读出函数**：经过 \(K\) 次消息传递迭代后，通过读出函数 \(R(\cdot)\) 从最终节点状态 \(h_i^K\) 获得分割预测图 \(\hat{S

最低0.47元/天解锁专栏

赠100次下载

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

无监督视频对象分割技术：COSNet与AGNN的探索

相关推荐

专栏目录

专栏目录

无监督视频对象分割技术：COSNet与AGNN的探索

相关推荐

Python实现基于图注意力网络的视频目标分割算法源代码

基于属性和图神经网络的推荐算法-本科毕业设计-AGNN.zip

融合注意力门控神经网络和Stacking算法的文本分类方法.pdf

AGNN：视频对象分割的注意图神经网络方法

Python源码：图注意力网络实现视频目标分割

个性化推荐算法研究：属性图神经网络模型

图注意力网络详解：GAT的非对称注意力机制

图神经网络与Python结合的推荐算法毕设

图神经网络与属性结合的推荐算法研究

无监督视频目标分割技术解析

gstreamer插件无法加载，使用不了，黑名单Blacklist的解决办法

斯坦福大学点云模型文件

专栏目录

最新推荐

【Coze混剪多语言支持】：制作国际化带货视频的挑战与对策

一键安装Visual C++运行库：错误处理与常见问题的权威解析（专家指南）

C++网络编程进阶：内存管理和对象池设计

视频编码101

Coze工作流的用户权限管理：掌握访问控制的艺术

CMake与动态链接库（DLL_SO_DYLIB）：构建和管理的终极指南

【AI智能体隐私保护】：在数据处理中保护用户隐私

【数据清洗流程】：Kaggle竞赛中的高效数据处理方法

【高级转场】：coze工作流技术，情感片段连接的桥梁

【架构模式优选】：设计高效学生成绩管理系统的模式选择

专栏目录