1.DeepPose(谷歌大佬首次提出人体关键点解决方案)
2.Joint-cnn-mrf(在cnn框架下利用条件随机场对位置进行建模,提出了heatmap)
3.SpatialDropout (LeCun团队首次将多尺度应用于人体关键点检测)
4.Optical Flowing(首次将光流特征应用于2D关键点检测)
5.CPM(空间特征学习机器,去掉了对马尔科夫模型建模空间联系的依赖)
6.IEF (错误迭代反馈机制,去掉了对马尔科夫模型建模空间联系的依赖)
7.Deepcut & Deepercut(伪多人关键点检测方案)
8.Hourglass(首个以模块形式堆叠形成的人体姿态估计网络)
9.Pose Attention(以Hourglass为基石,引入attention机制,引入CRF取代softmax)
10.PyraNet(以Hourglass为基石,特征金字塔)
11.MSSA(以Hourglass为基石,多尺度特征,掩码训练)
12.G-RMI(单人关键点检测基石,有许多基础思路)
13.Global and Local Normalization(肢体归一化)
14.Adversarial PoseNet(使用生成对抗策略解决关键点遮挡问题)
15.Self Adversarial pose(利用对抗的方式使得热度图更精准)
16.alphapsoe1 & alphapsoe2(解决人体框不准和拥挤场景姿态估计)
17.Recurrent Human Pose Estimation(递归训练实现人体关键点预测)
18.CPN(级联金字塔网络,2017coco关键点冠军)
19.GNet-pose(利用外部构建图特征的方式进行引导学习)
20.PIL(利用外部身体部位信息的方式进行引导学习)
21.simple baseline(简单高效的单人姿态估计网络)
22.DLCM(首次用显式的方式将关键点和连接进行分层学习)
23.Hrnet(coco2019关键点检测冠军)
24.MSPN(基于Hourglass,优化其存在的缺点)
25.FastPose(将知识蒸馏应用于人体关键点检测)
26.Darkpose(首次对关键点的编解码过程进行研究)
27.SSN(轻量级人体姿态估计网络)
28 .LSTM_POSE_Machine(利用LSTM进行对视频进行人体姿态估计)
29.UniPose_LSTM(最新视频姿态估计SOTA)
30.High Performance(优于Hrnet)
·
1.DeepPose(谷歌大佬首次提出人体关键点解决方案)
CVPR2014 Google | DeepPose: Human Pose Estimation via Deep Neural Networks
3rdParty Code:pytorch
3rdParty Code:chainer
3rdParty Code:tensorflow
3rdParty Code:caffe
Google大佬首次提出,如何使用CNN来进行姿态估计的公式,并且提出了一种使用级联的方式来进行更准确的姿态估计器。作者使用CNN并不是用的分类损失,而是使用线性回归损失,预测的关键点和ground-true 的 L2-loss。为了得到更好的精确率,作者训练一个级联的姿态回归器。在第一个阶段,先粗略的估计出部分的姿态轮廓,然后在下个阶段,将通过已知关键点位置不断的优化其他关键点的位置。每个stage都使用已经预测的关键点来切出基于这个关键点的邻域,这个子图像将被用于接下来的网络输入,而接下来的网络就会看到更高分辨率的图像,最终达到更好的精确率。
2.Joint-cnn-mrf(在cnn框架下利用条件随机场对位置进行建模,提出了heatmap)
NIPS 2014 纽约大学 Yann LeCun | Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation
Official Code:tensorflow
本文提出了一种新的混合体系结构,该体系结构由CNN和马尔可夫随机场组成。作者展示了此架构如何成功应用于2D人体姿势估计。该体系结构可以利用结构域约束,例如人体关节位置之间的几何关系。 算法表明,这两种模型范例的联合训练可提高性能,并使我们大大优于现有的最新技术。这是早期的deep learning应用到姿态估计的文章,所以有比较大篇幅网络模型设计,作者通过理论结合实际提出网络结构设计思想(当然现如今NSA已经势不可挡)。下图还展示了本文的核心思想就是不同类间的关键点存在位置上的结构性联系。
1、利用CNN做姿态估计,采用heatmap的方式来回归出关键点
2、利用人体关键点之间的结构关系,结合马尔科夫随机场的思想来优化预测结果,主要针对于网络预测的false postive。
3.SpatialDropout (LeCun团队首次将多尺度应用于人体关键点检测)
2014 纽约大学 Yann LeCun | Efficient Object Localization Using Convolutional Networks
深度卷积网络(CNN)已实现了最新的人体姿势估计性能。 传统的CNN体系结构包括池化和子采样层,可减少计算需求,引入不变性并防止过度训练。 当然这些好处是以降低定位精度为代价的。 本文提出了一种新颖的体系结构,其中包括有效的“位置细化”模型,该模型经过训练可以估计图像小区域内的关节偏移位置。 该精化模型与最新的CNN模型一起级联训练(形成一种新颖的级联架构,该架构结合了精细和粗尺度卷积网络),以提高人体关节位置估计的准确性。文章的主要贡献有:
1、pooling层能为网络增强一些“局部不变性”、“旋转不变性”之类的能力,也能降低参数等种种优点的同时对于回归heatmap的任务却会带来location的精度损失。因此提出了一种新的结构,用于弥补pooling的负效应,“position refinement”。
2、文章提出了全新的“SpatialDropout”策略。
3、多分辨率输入,在更高的分辨率上微调关键点位置。
4. Optical Flowing(首次将光流特征应用于2D关键点检测)
ICCV 2015 | Flowing ConvNets for Human Pose Estimation in Videos
Official Code:caffe
这项工作的目的是对视频中的人体进行姿势估计。本文提出了一种CNN结构,该结构可以通过使用光流将多个帧中的信息组合在一起而从时间上下文中受益。该网络架构:(i)比以前研究回归热图的网络更深; (ii)学习隐式空间模型的空间融合层; (iii)光流用于对齐来自相邻帧的热图预测; (iv)最终的参数化合并层,该层学习将相邻帧热图合并为整体置信度图。
5.CPM(空间特征学习机器,去掉了对马尔科夫模型建模空间联系的依赖)
CVPR 2016 卡内基梅隆大学 | Convolutional Pose Machines
Official Code: caffe
3rdParty Code: T