Weakly-Supervised Action Localization by Generative Attention Modeling批注

最新推荐文章于 2024-07-13 17:38:49 发布

CV=ctrl+v

最新推荐文章于 2024-07-13 17:38:49 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43608985/article/details/107748014

Weakly-Supervised Action Localization by Generative Attention Modeling

主要任务

动作定位，方法又可以分为两类：
一、全监督学习方式：采用帧级标注，缺点在于耗时且浪费资源
二、弱监督学习方式：只在视频级标注，改善了全监督的缺点

本文主要任务是：弱监督动作定位 (WSAL)
弱监督方式又分两种：
1.自顶向下：先学习一个视频层次分类器，然后利用产生的时间类激活图来获取帧级注意力（每帧可以是一个小片段）

2.自底向上：直接从原始数据预测时间注意力，然后在视频级标注的视频分类任务中进行优化

两种弱监督方法都使用视频级分类模型，新问题：行为和语境混淆问题

产生的原因：没有帧级标注的情况下，分类器通过集成所有相关帧的特征来学习，这是造成混淆的原因

解决方法：
从原因入手：有人试图解决问题，假设背景帧是静止的即不包含任何动作，也就不包含任何特征，不会与动作帧混淆；
但这假设是有局限性的，即忽视了语境与动作的内在差异（或联系？）

改进：要想分开语境和行为，模型就必须抓住它们的不同（外观和动作层面；特征表示层面）
而且这些差异是客观存在的，与行为类别无关【新的发现】

从这个发现入手：
直观上，提出生成注意力机制，以帧级注意力来建模帧级特征表示
具体地，可以论证定位问题与1.传统的分类和2.表示模型都有关。
因此本文方法整体框架（DGAM）包括两部分：
1.区分注意力模型和2.生成注意力模型（对应上两个）

区分注意力模型实际上就是训练一个基于时间池化特征(通过帧级注意力加权的)分类模型
而生成注意力模型就是一个条件变分自动编码器（以帧级注意力值为条件)来建模帧级特征表示的分布

最大化表示似然相应的可以优化帧级注意(逻辑关系应该是两者之间是正比关系

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。