时空动作分类与识别:原理、方法与应用
立即解锁
发布时间: 2025-09-05 01:23:25 阅读量: 7 订阅数: 16 AIGC 

### 时空动作分类与识别:原理、方法与应用
#### 1. 动作分类
动作分类需要综合考虑行动者的姿势以及动作发生的环境(上下文)。例如,在图中展示了结合姿势和上下文信息进行动作分类和识别的过程。像骑自行车、骑马、使用电脑等动作,通过对姿势和环境因素的综合考量,能更准确地实现分类。
动作分类方法主要有基于姿势的分类和基于上下文的分类:
- **基于姿势的分类**:着重分析行动者的身体姿势,以此判断动作类型。
- **基于上下文的分类**:关注动作发生的环境背景,辅助进行动作分类。
#### 2. 动作识别
动作和活动的表示与识别是一个较新但尚未成熟的领域,具体方法的选择通常取决于研究目的。在场景解释中,活动的表示可以独立于产生活动的对象;而在监控应用中,更关注人的活动以及人与人之间的交互。对于整体方法而言,全局信息往往优于组件信息,例如在判断人的性别时;对于像行走或跑步这类简单动作,也可考虑使用局部/部分方法,更注重详细动作或动作基元。
##### 2.1 整体识别
整体识别强调对整个人体或单个人体各部分的识别。例如,基于人体的整体结构和动态信息,可以识别出人的行走、行走步态等。多数方法基于人体的轮廓或外形,不区分身体的各个部分。有一种基于人体的识别技术,利用人的轮廓进行均匀采样,然后用主成分分析(PCA)处理分解后的轮廓。为计算时空相关性,可以在特征空间中比较轨迹。此外,利用动态信息不仅能识别身份,还能确定人正在进行的动作。而基于身体部位的识别则利用身体部位的位置和动态信息来识别动作。
Weizmann动作识别数据库提供了一些动作的示例图片,这些图片分为十个类别,包括头部拍手、横向移动、弯腰、行走、跑步、拍打、单手挥动、双手挥动、单脚向前跳、双脚跳、原地双脚跳等。
##### 2.2 姿势建模
人体动作的识别与人体姿势的估计密切相关。人体姿势可分为动作姿势和姿态姿势,前者对应某一时刻人的动作行为,后者对应人体在三维空间中的方向。
人体姿势的表示和计算方法主要有以下三种:
|方法|描述|优缺点|
| ---- | ---- | ---- |
|基于外观的方法|不直接对人的物理结构进行建模,而是利用颜色、纹理、轮廓等信息分析人体姿势|仅使用二维图像中的表观信息,难以估计人体的姿态姿势|
|基于人体模型的方法|先使用线画模型、二维模型或三维模型对人体进行建模,再通过分析这些参数化的人体模型来估计人体姿势|通常需要高图像分辨率和准确的目标检测|
|基于三维重建的方法|通过多个不同位置的相机获取二维移动物体,经对应点匹配将其重建为三维移动物体,再利用相机参数和成像公式估计人体在三维空间中的姿势|需要多个相机和复杂的重建过程|
姿势可以基于时空兴趣点进行建模。若仅使用时空Harris兴趣点检测器,得到的时空兴趣点大多位于运动突变区域,数量较少且属于稀疏类型,容易丢失视频中的重要运动信息,导致检测失败。为克服这一问题,可以借助运动强度提取一些密集的时空兴趣点,以充分捕捉运动引起的变化。具体操作是将图像与空间高斯滤波器和时间Gabor滤波器进行卷积来计算运动强度。提取时空兴趣点后,为每个点建立描述符,进而对每个姿势进行建模。具体步骤如下:
1. 从训练样本库中提取姿势的时空特征点作为底层特征,让一个姿势对应一组时空特征点。
2. 使用无监督分类方法对姿势样本进行分类,得到典型姿势的聚类结果。
3. 使用基于EM的高斯混合模型对每个典型姿势类别进行建模。
当前自然场景中姿势估计的一个趋势是克服非结构化场景中单视图跟踪的问题,更多地使用单帧图像进行姿势检测。例如,基于鲁棒组件检测和组件的概率组合,可以在复杂视频中更好地估计二维姿势。
##### 2.3 活动重建
动作会导致姿势的改变。如果将人体的每个静态姿势定义为一个状态,借助状态空间方法(也称为概率网络方法),通过转移概率进行状态转移,然后在相应姿势的状态之间进行遍历,就可以构建活动序列。
基于姿势估计,在从视频中自动重建人类活动方面也取得了显著进展。最初基于模型的分析 - 合成方案利用多视图视频捕获来有效搜索姿势空间。目前,许多方法更注重获取整体身体运动,而非精确构建细节。借助统计采样技术,单视图人体活动重建也取得了很大进展。当前,更多地关注使用学习到的模型来约束基于活动的重建。研究表明,使用强先验模型有助于在单视图图像中跟踪特定活动。
mermaid流程图如下:
```mermaid
graph LR
A[定义静态姿势为状态] --> B[状态空间方法]
B --> C[状态转移]
C --> D[遍历状态构建活动序列]
```
##### 2.4 交互活动
交互活动是更复杂的活动,可分为两类:
1. 人与环境的交互,例如人开车或拿书。
2. 人际交互,通常指两人(或多人)之间的交流活动或接触行为。
交互活动是由单人的(原子)活动组合而成。单人活动可以借助概率图模型进行描述,概率图模型是建模连续动态特征序列的有力工具,具有相对成熟的理论基础。但其缺点是模型的拓扑结构依赖于活动本身的结构信息,因此对于复杂的交互活动,需要大量的训练数据来学习图模型的拓扑结构。为了组合单人活动,可以使用统计关系学习(SRL)方法,SRL是一种集成了关系/逻辑表示、概率推理、机器学习和数据挖掘的机器学习方法,用于获取关系数据的似然模型。
##### 2.5 群体活动
参与活动的数量大幅增加会带来新的问题和研究方向。例如,群体对象运动分析主要以人流、车流和自然界中的密集生物群体为研究对象,研究群体对象运动的表示和描述方法,分析群体对象运动特征和边界约束对群体对象运动的影响。此时,对特殊个体独特行为的把握会减弱,更多地关注个体的抽象和整个集体活动的描述。一些研究借鉴宏观运动学理论,探索粒子流的运动规律,建立粒子流的运动理论,并在此基础上对群体对象活动中的聚集、消散、分化和合并等动态演化现象进行语义分析,以解释整个场景的趋势和情况。
在群体活动分析中,统计参与活动的个体数量是一项基础数据。例如,在许多公共场所,如广场、体育场入口等,需要对人流中的人数进行一定的统计。尽管场景中有很多人且他们的动作各不相同,但关注的是特定范围内(框架内)的人数。
在监控中,相机的放置对于准确统计人数至关重要。当相机光轴水平时,水平深度Z
0
0
复制全文
相关推荐









