（ICCV-2021）用于步态识别的上下文敏感时间特征学习（二）

最新推荐文章于 2025-08-19 21:35:52 发布

顾道长生'

最新推荐文章于 2025-08-19 21:35:52 发布

阅读量953

点赞数

CC 4.0 BY-SA版权

分类专栏：步态识别文章标签：深度学习机器学习计算机视觉步态识别神经网络

本文链接：https://blog.csdn.net/wl1780852311/article/details/122446909

步态识别专栏收录该内容

53 篇文章

订阅专栏

本文介绍了一种新型步态识别网络，该网络通过多尺度时间提取模块捕捉不同时间尺度的运动特征，并利用自适应时间聚合和显著空间特征学习模块增强特征表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Method

$\quad \quad$ 在本节中，首先描述提出方法的主干，然后说明网络中每个组件的详细结构。

Network Pipeline

$\quad \quad$ 本文方法的总体结构如图 3 所示。一批 $N$ 帧的 $B$ 个步态样本作为输入被送入网络，表示为 $G∈RB×N×H×WG\in\mathbb{R}^{B \times N \times H \times W}$ 。 $H$ 和 $W$ 分别表示每个输入帧的高度和宽度。首先， $G$ 通过4层的2D CNN生成特征 $F∈RB×N×C×H/2×W/2F\in\mathbb{R}^{B \times N \times C \times H / 2 \times W / 2}$ ，其中 $C$ 表示特征通道数。之后，在 $F$ 上实现了一个多尺度时间提取模块，以生成具有三种不同时间尺度的时间特征，即帧级、短期和长期时间特征，分别表示为 $T_{f}, T_{s}$ 和 $T_{l}$ 。 $T_{f}, T_{s}$ 和 $T_{l}$ 都有 $RB×N×C×K\mathbb{R}^{B \times N \times C \times K}$ 的大小，其中 $K$ 表示在一定程度上对应于身体部位的水平划分特征部分的数量。接下来，时间特征被作为自适应时间聚合（ATA）和显著空间特征学习（SSFL）模块的输入，通过这两个模块可以得到相应的时间聚合特征 $\in \mathbb{R}^{B \times C \times K}$ 和重组空间显著特征 $\in \mathbb{R}^{B \times C \times K}$ 。时间聚合特征 $T$ 是通过每个特征图的重要性对整个序列特征进行加权汇总，以表示时间域中的判别信息。通过选择最显著的空间部分来重新组合空间显著特征 $S$ ，这些空间部分保持了丰富的未失真轮廓信息。最后， $S$ 和 $T$ 沿通道维度连接为输出 $O$ 。

图 3. CSTL概述。箭头, $G, P, T, S$ 和 $O$ 分别表示操作、输入步态序列、池化部位级特征、时间聚合特征和重组空间特征。 $L_{t r i}$ 和 $L_{c e}$ 分别代表三元组损失和交叉熵损失。

Multi-Scale Temporal Extraction

$\quad \quad$ 如 3.1 节所述，多尺度时间提取旨在丰富时间特征的多样性。首先，将 $F$ 分成 $K$ 个部分，然后应用全局最大池化（GMP）和全局平均池化（GAP）得到部分级池化特征 $\in \mathbb{R}^{B \times N \times C \times K}$ ，其中 $P_{b}^{n}$ 表示第 $b$ 个样本中的第 $n$ 帧。如图 4 所示，帧级特征是 $P$ 的副本，不涉及时间操作，因此每个时刻的外观特征都得到了很好的保持。

图 4. 多尺度时间特征学习的细节。在三个层次上产生时间特征的详细结构。

$\quad \quad$ 为了捕捉短期的时间特征，应用两个核大小为3的串行1D卷积，并将每个1D卷积之后的特征相加为 $T_s$ 。获得短期特征使网络能够专注于短期时间运动模式和感受野为3和5的细微变化。

$\quad \quad$ 长期特征提取是基于所有帧的组合。首先，在 $P$ 上应用多层感知机 (MLP) 和 Sigmoid 函数来评估不同帧的重要性。接下来，利用重要性分数对所有帧的加权求和作为长期时间特征 $T_l$ ，其公式为：
$T_{l}^{b}=\frac{\sum_{n=1}^{N} \operatorname{Sigmoid}\left(M L P\left(P_{b}^{n}\right)\right) \odot P_{b}^{n}}{\sum_{n=1}^{N} \operatorname{Sigmoid}\left(M L P\left(P_{b}^{n}\right)\right)}$
其中 $⊙\odot$ 表示点积。注意， $T_{l}^{b}$ 对于第 $b$ 个样本中的所有帧都是不变的，它描述了全局运动线索。之后，为后续的 ATA 和 SSFL 块获得三个级别的时间特征，例如 $T_{f}, T_{s}$ 和 $T_{l}$ 。

Adaptive Temporal Aggregation

关系建模。 在这一部分中，利用多尺度时间特征来探索特征关系，这使得不同时间尺度之间的信息交换成为可能。正如GaitPart中所讨论的，不同的身体部位拥有不同的运动模式，这表明时间建模需要不同的表达方式。直观地说，特征关系建模提供了多种时间感受野。因此，不同类型特征的相互作用将有效丰富时间表示的多样性，从而产生适合人体的运动表达。

$\quad \quad$ 如图 5 所示，跨尺度关系建模产生单独的分数，用于评估不同尺度的时间特征的重要性。这种关系建模以一种有效的方式利用了丰富的时间信息，其中涉及到不同的时间粒度来自适应地描述不同身体部位的运动模式。首先，应用从上到下的时间特征之间流动的信息：
$\begin{aligned} &\widetilde{T}_{f}=T_{f} \\ &\widetilde{T}_{s}=T_{f}+T_{s} \\ &\widetilde{T}_{l}=T_{f}+T_{s}+T_{l} \end{aligned}$
然后，通过考虑三个时间尺度的上下文信息来学习每个时间尺度的时间重要性权重，这是通过两个全连接层和一个 Sigmoid 函数实现的：
$W_{T}=\operatorname{Sigmoid}\left(F C \left(F C\left(\widetilde{T}_{f}\text{©} \widetilde{T}_{s}\text{©} \widetilde{T}_{l}\right)\right)\right)$
其中 $WT∈RB×N×3×C×KW_{T} \in \mathbb{R}^{B \times N \times 3 \times C \times K}$ 和 $W_{T}^{b, n}$ 表示第b个样本中第n帧的时间重要性权重。 $W_T$ 包含三个时间尺度的重要性权重，分别表示为 $W_{T, 1}, W_{T, 2}$ 和 $W_{T, 3}$ 。然后，通过软注意力方式获得注意的时间特征：
$T_{A}^{b, n}=\widetilde{T}_{f}^{b, n} \odot W_{T, 1}^{b, n}+\widetilde{T}_{s}^{b, n} \odot W_{T, 2}^{b, n}+\widetilde{T}_{l}^{b, n} \odot W_{T, 3}^{b, n}$
基于跨尺度时间聚合，以加权求和方式获得第 $b$ 个样本的序列级表示：
$T_{b}=\frac{\sum_{n=1}^{N} T_{A}^{b, n}}{\sum_{n=1}^{N} \sum_{i=1}^{3} W_{T, i}^{b, n}}$
其中 $T={Tb∣b=1,…B}T=\left\{T_{b} \mid b=1, \ldots B\right\}$ 且 $\in \mathbb{R}^{B \times C \times K}$ 时间关系建模鼓励本文的网络生成具有自适应时间感知场的运动特征，从而自适应地突出或抑制特征以进行运动学习。

图 5. 跨三个时间尺度的关系建模结构。

Salient Spatial Feature Learning

$\quad \quad$ 在本节中，旨在提取显著的空间部分以减轻外观特征的损坏。

讨论。 直观地说，为了补救被破坏的空间特征，应该像[7，14]中的方法那样选择一个单独的框架。然而，由于相机视角和运动遮挡，例如手臂、腿和躯干的遮挡，单帧可能无法清楚地表达所有身体部位的外观特征。实际上，高质量的身体部位会在每一帧中出现和消失。因此，通过利用这种固有的运动特征，在整个序列中选择显著的身体部位来重组一帧判别特征，而不是直接选择一帧。

操作。 时间线索为评估每一帧的判别性提供了上下文信息。因此，在三个级别的时间特征上应用带有 Sigmoid 函数的 MLP，以产生每一帧的部分分数，其定义为：
$\begin{aligned} &P_{s}^{b, n}=\operatorname{Sigmoid}\left(M L P\left(T_{f}^{b, n} \mathcal{C} T_{s}^{b, n}\left(\mathfrak{C} T_{l}^{b, n}\right)\right)\right. \\ &\widetilde{P}_{s}^{b, n}=\frac{P_{s}^{b, n}}{\sum_{n=1}^{N} P_{s}^{b, n}} \end{aligned}$
其中 $P~sb,n∈R1×K\widetilde{P}_{s}^{b, n} \in \mathbb{R}^{1 \times K}$ 表示第 $b$ 个样本中第 $n$ 帧的部分分数， $P~sb,n,k\widetilde{P}_{s}^{b, n, k}$ 表示第 $b$ 个样本中第 $n$ 帧的第 $k$ 个部分分数样本。部分分数的值代表了局部部分的重要性，因此分数越高表示空间表示越清晰。为了监督显著性描述的正确性，在 $T_{f}$ 和 $P~s\widetilde{P}_{s}$ 的加权总和上强制执行具有交叉熵损失的全连接层。首先，具有全连接层的第 $b$ 个样本的加权部分特征表示为：
$P_{w}^{b}=F C\left(\sum_{n=1}^{N} T_{f}^{b, n} \odot \widetilde{P}_{s}^{b, n}\right)$
其中 $Pwb∈RCt×KP_{w}^{b} \in \mathbb{R}^{C_{t} \times K}$ ，并且 $C_{t}$ 表示训练目标的数量。然后，对 $P_{w}^{b}$ 应用交叉熵损失以产生 $L_{c e}$ ：
$L_{c e}=-\sum_{b=1}^{B} \sum_{c=1}^{C_{t}} y_{b, c} \log \left(\operatorname{SoftMax}\left(P_{w}^{b}\right)\right)_{c},$
其中 $y_{b, c}$ 表示第 $b$ 个样本的身份信息，等于0或1。

之后，获得了沿时间维度得分最高的部分索引：
$x_{b}^{k}=\arg \max _{n} P_{s}^{b, n, k},$
其中 $x_{b}^{k}$ 表示第 $b$ 样本中所选第 $k$ 部分的时间索引。然后，在 ${xbk∣k=1,2,…,K}\left\{x_{b}^{k} \mid k=1,2, \ldots, K\right\}$ 的指导下，以硬注意力的方式获得重组帧特征 $S_{b}$ ：
$S_{b}=T_{f}^{b, x_{b}^{1}, 1}© T_{f}^{b, x_{b}^{2}, 2} \cdots © T_{f}^{b, x_{b}^{K}, K},$
其中©表示级联。因此，得到重组空间特征 $S={Sb∣b=1,2,…,B}S=\left\{S_{b} \mid b=1,2, \ldots, B\right\}$ 。 $S$ 为时间聚合特征 $T$ 提供补充空间线索。在 $S$ 和 $T$ 的组合上采用Triplet loss作为度量学习损失函数。整体损失函数如下所示：
$L=L_{c e}+L_{t r i}$

参考文献

[7] Shreyank N Gowda, Marcus Rohrbach, and Laura SevillaLara. Smart frame selection for action recognition. arXiv preprint arXiv:2012.10671, 2020. 5

[14] Okan Köpüklü, Xiangyu Wei, and Gerhard Rigoll. You only watch once: A unified cnn architecture for realtime spatiotemporal action localization. arXiv preprint arXiv:1911.06644, 2019. 5