【注】这是我在动作识别领域,认真研读的第一篇文章,对很多概念还理解得不透彻,名词翻译不准确,请大家谅解并在评论区指正。最近正在看TSN的实现代码,后期还会出一篇代码研读的博客。
解决问题(motivation):
- 现有模型缺乏对long-range时间动作信息的分析
目前主流的动作识别模型,往往专注于提取空间信息(appearance)和short-term的时间动作信息,缺乏对long-range的时间动作信息的分析应用。而不去提取long-range的时序信息的原因,在于现有解决方案使用的是稠密时序采样(dense temporal sampling with a predefined sampling interval),这会导致极大的计算量,导致特征提取的视频长度有限。 - 训练数据有限
由于视频数据的采集和标注十分困难,现有的训练数据十分有限。例如现有的两个主流数据集:UCF101,HMDB51,在大小以及动作类别上都十分有限。如何在有限的数据下训练得到效果较好的模型也是一个问题。
解决方案(方案关键点):
1.提出基于双流网络结构的TSN网络 ,并使用稀疏采样的策略,获得视频长度上的时间动作信息。
2.在模型训练中使用一系列改进方法及技巧,使得在有限的数据下模型也能较好的训练。
①cross-modality pre-training; ②regularization; ③enhanced data augmentation;④study four types of input modalities to two-stream ConvNets.
一些疑问:
- 解决方案2中的多模态融合的实现细节?