基于序列识别的视频异常检测方法
立即解锁
发布时间: 2025-08-21 00:32:25 阅读量: 2 订阅数: 13 

### 基于序列识别的视频异常检测方法
深度学习和卷积神经网络(CNN)的快速发展,为视频异常检测研究技术提供了新的思路。下面将详细介绍相关的异常检测方法及其实验结果。
#### 1. 现有异常检测算法
- **基于C3D的改进算法**
- **C3D网络**:Tran等人提出的深度3D卷积神经网络(C3D),以视频块为输入,可直接获取视频块的时域和空域特征。
- **C3D与稀疏编码结合**:Chu等人将C3D与稀疏编码结合,利用C3D进行特征提取,生成的手动特征稀疏编码结果用于指导无监督特征学习。
- **基于多实例学习的算法**:Sultani等人提出的基于多实例学习的算法,打破了异常检测常见的无监督设置,选择了弱监督设置,在一定程度上突破了现有异常检测小数据集的限制。
- **GCN用于修正噪声标签**:Zhong等人首次使用图卷积网络(GCN)在视频分析领域修正噪声标签,设计基于特征相似性和时间一致性的图卷积神经网络,监督信号从高置信度段传播到低置信度段。
- **其他表现良好的异常检测算法**
- **CAE模型**:Ionescu等人提出的基于对象中心的卷积自编码器(CAE)模型,通过SSD算法逐帧检测前景对象,卷积自编码器获取特征向量后进行K-means聚类,使用k个SVM模型对测试样本进行分类,分类得分最高的类别为异常分类。
- **Mem - AE模型**:Gong等人提出的Mem - AE模型,解决了自编码器重建损失大的缺点,在自编码器中添加存储模块对编码器生成的隐藏特征向量Z进行规范限制,使视频异常检测中对正常样本的建模更贴合还原。
- **MT模型**:Rodrigues等人提出的多时间尺度(MT)模型,通过在输入信号上运行滑动窗口捕捉不同时间尺度的时空动态,对多个预测值求平均得到该时刻的最终预测异常得分值。
- **MPED - RNN网络**:Morais等人提出的MPED - RNN网络首次使用生物语义信息,以2D人体骨骼轨迹为特征,结合全局运动和局部姿态描述帧中人体的边界框,将骨骼特征丰富的语义信息应用于检测视频,完成人类行为异常事件的检测任务。
#### 2. 提出的异常检测方法
- **特征提取**
- **I3D网络的优势**:为利用视频的外观和运动信息,使用在Kinetics数据集上预训练的膨胀3D(I3D)网络作为特征提取网络。与之前的C3D特征提取模型中大量使用单尺寸卷积核不同,I3D特征提取模型中的Inception模块使用由不同尺寸卷积核组成的多个通道,分别计算每个通道,最后将信息拼接融合,选择相关性更强的特征进行整合,生成多个特征子集,提高了特征结果的纯度。
- **特征类型及选择**:I3D具有双流网络结构,其特征分为I3D_RGB(以RGB图像序列为输入的通道获得的特征)和I3D_Flow(以DIS密集光流算法获得的光流图像序列为输入获得的特征)。通过比较不同特征组合对异常事件检测任务准确性的影响,最终决定仅使用视频的RGB特征作为序列识别网络的输入,以I3D_RGB倒数第二层的输出结果作为视频的特征。
- **Bi - LSTM模型**
- **LSTM解决RNN问题**:为使神经网络模型能基于更长序列进行判断,充分利用视频的上下文信息,使用长短期记忆网络(LSTM)解决循环神经网络(RNN)长距离梯度计算问题。LSTM结构中时刻t的状态更新公式如下:
\[
\begin{align*}
i_t &= \sigma(W_{ix}x(t) + U_{i}h(t - 1) + b_{i})\\
f_t &= \sigma(W_{fx}x(t) + U_{f}h(t - 1) + b_{f})\\
o_t &= \sigma(W_{ox}x(t) + U_{o}h(t - 1) + b_{o})\\
\tilde{C}_t &= \tanh(W_{cx}x(t) + U_{c}h(t - 1) + b_{c})\\
C_t &= i_t * \tilde{C}_t + f_t * C_{t - 1}\\
h_t &= o_t * \tanh(C_t)
\end{align*}
\]
其中,$i_t$、$f_t$、$o_t$、$C_t$分别为输入门、遗忘门、输出门和记忆单元的输出值,$\sigma$为Sigmoid函数,$W$、$U$、$b$为LSTM神经网络的参数。
- **Bi - LSTM提供完整上下文信息**:考虑到视频异常事件的检测不仅与异常事件发生前的视频片段有关,还与发生后的视频片段有关,而LSTM网络无法反向计算视频特征向量的上下文信息,因此使用双向长短期记忆网络(Bi - LSTM)层替换序列识别模型中的LSTM层,将正向和反向序列组合作为输出,双向LSTM网络结构可为视频提供完整的上下文信息。
- **序列识别网络模型**
- **网络结构及作用**:序列识别模型的整体网络结构中,两层LSTM网络的作用是使神经网络能基于更长序列进行判断,两层LSTM网络后,将其隐藏层的输出作为视频的特征编码并进行一次回归评分,使用Tanh作为全连接(FC)层的激活函数。
- **序列识别算法流程**
- 特征提取:使用在Kinetics数据集上预训练的膨胀3D卷积网络模型提取I3D网络倒数第二层的特征作为视频
0
0
复制全文
相关推荐










