[论文阅读] Multi-Scale Structure-Aware Network for Human Pose Estimation(ECCV 2018)
当前人体估计方法中存在的问题:
(1) scale不稳定性:微小的输入bounding box扰动对人体姿态估计会造成较大影响。现有的基于Hourglass的方法通常会在某一个scale过拟合,这些方法都采用重复向前传递不同scales来解决此问题,所以这些方法缺乏对于连续scales的表示。
(2) 结构先验性的不足:人体结构作为先验可以为关键点的定位提供信息,尤其是在遮挡和模糊的图像中。先前的方法中缺乏这方面的探索。所以文章提出了intermediate structural loss和global regression network以及keypoint masking scheme来处理严重遮挡的关键点。
针对这些问题,本文主要创新点:
(1) multi-scale supervision network:通过组合不同scale下的heatmap来加强人体关键点匹配的上下文特征学习;
(2) multi-scale regression network:在网络最后,用于优化multi-scale特征之间的匹配;
(3) structure-aware loss:用在回归网络的中间监督层以提高关键点和邻居节点之间的特征匹配从而推断出一个较好的匹配机制;
(4) keypoint masking training scheme:微调网络以更好地实现对遮挡关键点的定位。
multi-scale supervision network(MSS-net):
结