Anomaly Detection系列(SPL2022 WAGCN论文解读)

Adaptive Graph Convolutional Networks for Weakly  Supervised Anomaly Detection in Videos


weakly supervised adaptive graph convolutional network (WAGCN) 弱监督自适应图卷积网络
对视频片段之间复杂的上下文关系(时空关系)进行建模:

  • 首先,结合视频片段的时间一致性和特征相似性构建全局图,充分利用视频中异常事件的时空特征之间的关联信息。

  • 其次,为了打破手动设置拓扑的限制,我们提出了一个图学习层,可以根据数据自适应有效地提取图邻接矩阵。

在使用GCN为WSAD建模时序上下文信息时存在以下挑战,本文给出解决方法

(1)仅使用一种网络结构来建模一种类型的关系,或者使用多个独立的分支分别建模不同类型的关系,这不能有效地建模序列中耦合在一起的多种关系。

  • 对于挑战1:使用特征相似图来表达具有相似特征的片段的内在关联。并且使用时间一致性图来描述平滑波动区间中片段的内在关联。然而,单一的特征相似性图和单一的时间一致性图对于异常事件检测都不是最优的。为了更好地利用片段之间的内在相关性,将两种视角进行融合,共同构建全局图进行事件的时空特征学习。

(2)现有的GCN方法忽略了预定义的图结构不是最优的,在训练过程中可以进行更新。

  • 对于挑战2:在邻接矩阵的构建过程中,打破了手动设置的限制。考虑视频片段的时空特征和其他潜在的上下文语义关系之间的相似性,以学习一个视频内容自适应的图邻接矩阵,该矩阵可以与整个网络同时训练。因此,首先学习一个全局的视频内容自适应图邻接矩阵来建模视频段间的上下文关系。然后为了解决vanilla GCN存在的过平滑问题(即所有节点的表示都收敛到一个平滑点,使其独立于输入特征,并导致梯度消失。)采用在GCN中添加残差连接来解决WSAD的这个问题。

本文贡献:

  1. 本文提出基于视频片段的时空特征相似性和时间邻近性构建全局图,以更好地挖掘片段之间的内在关联关系。

  2. 提出以端到端的方式学习图的自适应邻接矩阵,以增加模型的灵活性。并且提出了一种通过引入残差连接来提高GCN学习能力的有效方法。

  3. 大量实验充分表明了本文方法的有效性,在UCF - Crime和ShanghaiTech数据集上分别取得了84.67 %和96.05 %的帧级AUC。

核心原理与方法设计

(一)全局图构建:融合特征相似性与时间一致性

  • WAGCN的核心创新:

WAGCN通过全局图构建策略突破传统GCN的单一关系建模局限,结合特征相似性与时间邻近度,全面捕捉时空特征关联。

  • 特征相似性图构建

引入图学习层动态调整节点连接权重,使用两个独立线性层嵌入特征,通过点积计算片段相似性,并利用归一化指数函数生成可学习邻接矩阵(A^F),使图结构随训练优化以适应异常检测需求。

  • 时间一致性图构建

基于视频时间结构定义邻接矩阵(A^T),公式为(A_{ij}^T = exp(-|i-j|)),时间距离越近权重越大,有效捕捉异常事件的时间一致性模式。

  • 全局图融合

将特征相似性图和时间一致性图的邻接矩阵相加,联合建模空间特征相似性和时间序列关系,实现对视频片段间复杂上下文关系的全面表征。

(二)自适应图学习

传统 GCN 方法中,图的邻接矩阵往往基于先验知识手动设定,难以适应不同视频场景的复杂需求。WAGCN 通过引入端到端学习的自适应邻接矩阵,彻底打破了这一限制。

(三)图卷积模块

尽管 GCN 在建模图结构数据方面表现出色,但其固有的过平滑问题(Over-smoothing)一直是制约其性能的关键因素。当层数增加时,所有节点的表示会收敛到一个平滑点,导致输入特征的独立性丧失和梯度消失。为解决这一问题,WAGCN 在图卷积模块中引入了残差连接。

(四)弱监督训练:k-max 损失函数

在弱监督学习场景下,训练数据仅提供视频级标签(即视频是否包含异常),而缺乏片段级的时序标注。为了在这种受限条件下有效训练模型,WAGCN 采用了 k-max 损失函数。这种方法巧妙地扩大了异常片段与正常片段之间的类间距离,使得模型能够在弱监督条件下学习到更具判别性的特征。

k-max 损失函数的设计体现了一种 "聚焦异常" 的训练策略 —— 通过关注异常视频中最可能为异常的片段,模型能够更有效地利用有限的监督信息,从而提高检测性能。

(五)网络WAGCN结构细节:

(1)特征提取

遵循基于MIL的异常检测方法,每个视频Vn被分成T个不重叠的片段,每个片段包含16帧,然后送入特征提取器。使用在Dynamics数据集上预训练的I3D作为特征提取网络。

(2)图形构建模块

结合视频片段的时空特征相似性和视频片段的时间邻近程度来构建全局图,以更好的建模视频的时间关系和动态特性。

为了减轻维数灾难,特征提取器的输出特征Fn首先经过一个全连接层将特征维数降低。

  • 特征相似度图:

自适应地表示视频片段之间的相似性和邻接性。由于目标是捕获动态的时空依赖关系,而不是直接根据节点输入来定义两个连接节点的权重,因此在模型训练时动态地调整它们。

具体来说,我们首先使用两个独立的线性层,即f1和f2,然后使用ReLU激活来嵌入特征X。f1 (和f2 )的参数为W1 (和W2 )。然后用点积来度量任意两个片段的相似性和邻接性,用归一化指数矩阵将相似度限制在(0,1)范围。

  • 时间一致性图:

视频序列具有段与段之间的上下文关联和时序演化特性。此外,事件的发生具有波动的持续时间

(3)图卷积模块

使用L个GCN层来充分挖掘片段之间的关系。

图 1 本文提出方法

实验验证与性能分析

(一)数据集与评估指标

为了全面验证 WAGCN 的有效性,作者在两个广泛使用的公开数据集上进行了实验:

  • UCF-Crime:这是一个大规模的监控视频数据集,包含 13 类真实世界的异常事件。训练集包括 800 个正常视频和 810 个异常视频,测试集包含 150 个正常视频和 140 个异常视频8。

  • ShanghaiTech:这是一个中等规模的数据集,包含来自 13 个场景的 437 个视频。训练集有 175 个正常视频和 63 个异常视频,测试集包含 155 个正常视频和 44 个异常视频9。

评估指标采用帧级接收者操作特征曲线(ROC)和对应的曲线下面积(AUC@ROC)。

(二)实验结果与对比分析

实验结果表明,WAGCN 在两个数据集上均取得了显著优于现有方法的性能:

图 2 Auc ( % )性能比较

创新价值与未来展望

WAGCN 的提出在弱监督视频异常检测领域具有多方面的创新价值:

  • 首次提出了一种全局视频内容自适应的图邻接矩阵学习方法,通过融合特征相似性和时间邻近度,实现了对视频片段间上下文关系的全面建模2。这种方法打破了传统 GCN 依赖预定义图结构的限制,为自适应图学习在视频分析中的应用开辟了新途径。

  • WAGCN 引入的残差连接机制有效解决了 GCN 的过平滑问题,使得深层网络能够学习到更具判别性的特征表示。这一改进不仅提高了检测性能,也为 GCN 在其他视频理解任务中的应用提供了借鉴。

  • WAGCN 在两个基准数据集上取得的 state-of-the-art 性能,为弱监督视频异常检测树立了新的性能标杆。特别是其在 ShanghaiTech 数据集上达到的 96.05% 的 AUC,展示了该方法在复杂场景下的强大泛化能力。

展望未来,WAGCN 的设计思路可以在多个方向上进一步拓展:

  • 将其与自监督学习相结合,可能会进一步提升模型在小样本场景下的性能;

  • 将空间信息更精细地融入图结构中,有望在拥挤场景等复杂环境中取得更好的检测效果。

随着计算能力的提升和图学习理论的不断发展,我们有理由相信,自适应图卷积网络将在视频异常检测乃至更广泛的计算机视觉任务中发挥越来越重要的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值