Weakly-Supervised Action Localization by Generative Attention Modeling批注

Weakly-Supervised Action Localization by Generative Attention Modeling

主要任务

动作定位,方法又可以分为两类:
一、全监督学习方式:采用帧级标注,缺点在于耗时且浪费资源
二、弱监督学习方式:只在视频级标注,改善了全监督的缺点

本文主要任务是:弱监督动作定位 (WSAL)
弱监督方式又分两种:
1.自顶向下:先学习一个视频层次分类器,然后利用产生的时间 类激活图 来获取帧级注意力(每帧可以是一个小片段)

2.自底向上:直接从原始数据预测时间注意力,然后在视频级标注的视频分类任务中进行优化

两种弱监督方法都使用视频级分类模型,新问题:行为和语境混淆问题

产生的原因:没有帧级标注的情况下,分类器通过集成所有相关帧的特征来学习,这是造成混淆的原因

解决方法
从原因入手:有人试图解决问题,假设背景帧是静止的即不包含任何动作,也就不包含任何特征,不会与动作帧混淆;
但这假设是有局限性的,即忽视了语境与动作的内在差异(或联系?)

改进:要想分开语境和行为,模型就必须抓住它们的不同(外观和动作层面;特征表示层面)
而且这些差异是客观存在的,与行为类别无关【新的发现】

从这个发现入手:
直观上,提出生成注意力机制,以帧级注意力来建模帧级特征表示
具体地,可以论证定位问题与1.传统的分类和2.表示模型 都有关。
因此本文方法整体框架(DGAM)包括两部分:
1.区分注意力模型和2.生成注意力模型(对应上两个)

区分注意力模型实际上就是训练一个基于时间池化特征(通过帧级注意力加权的)分类模型
生成注意力模型就是一个条件变分自动编码器(以帧级注意力值为条件)来建模帧级特征表示的分布

最大化表示似然 相应的可以优化 帧级注意(逻辑关系 应该是两者之间是正比关系

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值