主要任务
动作定位,方法又可以分为两类:
一、全监督学习方式:采用帧级标注,缺点在于耗时且浪费资源
二、弱监督学习方式:只在视频级标注,改善了全监督的缺点
本文主要任务是:弱监督动作定位 (WSAL)
弱监督方式又分两种:
1.自顶向下:先学习一个视频层次分类器,然后利用产生的时间 类激活图 来获取帧级注意力(每帧可以是一个小片段)
2.自底向上:直接从原始数据预测时间注意力,然后在视频级标注的视频分类任务中进行优化
两种弱监督方法都使用视频级分类模型,新问题:行为和语境混淆问题
产生的原因:没有帧级标注的情况下,分类器通过集成所有相关帧的特征来学习,这是造成混淆的原因
解决方法:
从原因入手:有人试图解决问题,假设背景帧是静止的即不包含任何动作,也就不包含任何特征,不会与动作帧混淆;
但这假设是有局限性的,即忽视了语境与动作的内在差异(或联系?)
改进:要想分开语境和行为,模型就必须抓住它们的不同(外观和动作层面;特征表示层面)
而且这些差异是客观存在的,与行为类别无关【新的发现】
从这个发现入手:
直观上,提出生成注意力机制,以帧级注意力来建模帧级特征表示
具体地,可以论证定位问题与1.传统的分类和2.表示模型 都有关。
因此本文方法整体框架(DGAM)包括两部分:
1.区分注意力模型和2.生成注意力模型(对应上两个)
区分注意力模型实际上就是训练一个基于时间池化特征(通过帧级注意力加权的)分类模型
而生成注意力模型就是一个条件变分自动编码器(以帧级注意力值为条件)来建模帧级特征表示的分布
最大化表示似然 相应的可以优化 帧级注意(逻辑关系 应该是两者之间是正比关系