<“RTMPose:基于MMPose的实时多人姿态估计”>
论文信息
摘要
“近年来关于二维姿态估计的研究在公共基准上取得 了优异的成绩,但其在工业领域的应用仍然存在模型参 数繁重和高延迟的问题。为了弥补这一差距,我们对姿态 估计中的关键因素进行了实证研究,包括范式、模型架构、 训练策略和部署,并提出了基于MMPose的高性能实时多 人姿态估计框架RTMPose。我们的RTMPose-m在英特尔i711700 CPU上实现了75.8%的AP,在英特尔i7-11700 CPU上 实现了90+ FPS,在NVIDIA GTX 1660 Ti GPU上实现了 430+ FPS, RTMPose-x在COCO- wholebody上实现了65.3% 的AP。为了进一步评估RTMPose在关键实时应用中的能力, 我们还报告了在移动设备上部署后的性能。我们的rtmposs 模型在COCO上实现了72.2%的AP,在骁龙865芯片上实现 了70+ FPS,优于现有的开源库。”
📊 研究背景
1. 引言
实时人体姿态估计对各种应用如人机交互、动作识别、体育分析和虚拟主播技术具有吸引力。尽管在学术基准上取得了惊人的进展,但在计算能力有限的设备上执行健壮和实时的多人姿态估计仍然是一个挑战。最近的努力通过高效的网络架构和无检测范式缩小了差距,但这还不足以达到工业应用的满意性能。
在这项工作中,我们从五个方面实证研究了影响2D多人姿态估计框架性能和延迟的关键因素:范式、骨干网络、定位方法、训练策略和部署。
通过一系列优化,我们介绍了RTMPose,一系列新的实时姿态估计模型。首先,RTMPose采用自上而下的方法,使用现成的检测器获取边界框,然后单独估计每个人的姿势。自上而下的算法被定型为准确但慢,由于额外的检测过程和在拥挤场景中增加的工作量。然而,得益于实时检测器的卓越效率,检测部分不再是自上而下方法推理速度的瓶颈。在大多数场景中(每图像不超过6人),所提出的轻量级姿态估计网络能够实时执行所有实例的多次前向传递。
其次,RTMPose采用CSPNeXt作为骨干网络,这是首次为对象检测设计的。为图像分类设计的骨干网络对于像对象检测、姿态估计和语义分割等密集预测任务来说是次优的。一些利用高分辨率特征图或高级变换器架构的骨干网络在公共姿态估计基准上实现了高准确性,但计算成本高、推理延迟高或部署困难。CSPNeXt展现了速度和准确性的良好平衡,并且易于部署。
第三,RTMPose使用基于SimCC的算法预测关键点,该算法将关键点定位视为分类任务。与基于热图的算法相比,基于SimCC的算法在计算工作量较低的情况下实现了竞争性准确性。此外,SimCC使用非常简单的两层全连接网络架构进行预测,使其易于在各种后端上部署。
第四,我们重新审视了以前工作中的训练设置,并实证引入了一系列适用于姿态估计任务的训练策略。我们的实验表明,这套策略为所提出的RTMPose以及其他姿态估计模型带来了显著的增益。
最后,我们联合优化了姿态估计框架的推理管道。
我们使用在[文献3]中提出的跳帧检测策略来降低延迟,并使用姿态非最大抑制(NMS)和平滑过滤来提高鲁棒性。
此外,我们提供了一系列RTMPose模型,包括t/s/m/l/x尺寸,以覆盖不同的应用场景,提供最佳的性能-速度权衡。我们在不同的推理框架(PyTorch、ONNX Runtime、TensorRT、ncnn)和硬件(i7-11700、GTX1660Ti、Snapdragon865)上部署RTMPose以测试效率。如图1所示,我们使用不同的推理框架(PyTorch、ONNX Runtime、TensorRT、ncnn)和硬件(Intel i7-11700、GTX 1660Ti、Snapdragon 865)评估RTMPose的效率。我们的RTMPose-m在COCO验证集上达到75.8% AP(带翻转),在Intel i7-11700 CPU上达到90+ FPS,在NVIDIA GeForce GTX 1660 Ti GPU上达到430+ FPS,在Snapdragon 865芯片上达到35+ FPS。使用高性能实时目标检测模型RTMDet-nano在我们的姿态估计流程中,RTMPose-m可以达到73.2% AP。借助