1.提出ST-GCN的思路
现有的基于骨架的动作识别方法已经验证了在建模中引入身体部位的有效性。作者认为,这种改进很大程度上是由于与整个骨架相比,部件限制了“局部区域”内关节轨迹的建模,从而形成了骨架序列的层次表示。在图像对象识别等任务中,层次表示和局部性通常是通过卷积神经网络的内在属性来实现的,而不是手动分配对象部分。它促使我们将 CNN 的吸引人的特性引入基于骨架的动作识别。这次尝试的结果就是ST-GCN模型。
2.模型构建的流程概述 (Pipeline Overview)
从输入视频到动作分类的整个流程,包括使用姿势估计算法从视频中提取骨架数据,构建时空图,然后应用多层时空图卷积,最后通过Softmax分类器进行动作分类。
3.骨架图构建 (Skeleton Graph Construction)
- 骨架序列由每帧中每个人体关节的2D或3D坐标表示。
- 构建一个无向的时空图G=(V,E),包含关节作为图节点和人体结构及时间的自然连接作为图边。
- 节点集V包含序列中的所有关节,特征向量F(vti)包含第ii个关节在帧t的坐标向量和估计置信度。
-
边集E由两部分组成:空间边ES表示帧内关节的连接,时间边EF连接连续帧中相同的关节。
4.空间图卷积神经网络 (Spatial Graph Convolutional Neural Network)
- 论文首先介绍了在单个帧上的空间图CNN模型,然后扩展到时空图卷积。
- 定义了采样函数p和权重函数w,以适应图结构数据。
- 空间图卷积通过结合采样函数和权重函数来重新定义,允许信息在图节点及其邻居之间整合。
5.分区策略 (Partition Strategies)
论文提出了三种分区策略,这三种策略提供了不同级别的空间信息处理能力,从简单的统一处理到复杂的基于人体解剖学特性的分区,使得ST-GCN模型能够灵活地适应不同的动作识别任务和数据特性。通过这些策略,ST-GCN能够有效地从数据中学习到关节之间的空间关系和时间动态,进而提高对复杂人体动作的识别能力。
1. 单标签分区 (Uni-labeling)
- 描述:这是最简单的分区策略,其中整个邻居集合被视为一个单一的子集。在这种策略下,每个相邻节点的特征向量与同一个权重向量进行内积运算。
- <