【论文阅读】A New Representation of Skeleton Sequences for 3D Action Recognition

最新推荐文章于 2022-05-19 14:23:48 发布

原创最新推荐文章于 2022-05-19 14:23:48 发布 · 556 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

技术类专栏收录该内容

28 篇文章

订阅专栏

本文介绍了一种用于3D动作识别的骨架序列新表示方法。该方法通过选取四个稳定的参考关节点构建时空编码图，并将其转换为圆柱坐标系以提高准确性。最终通过多任务学习的卷积神经网络进行特征提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文阅读】A New Representation of Skeleton Sequences for 3D Action Recognition

这篇论文感觉写的太复杂，并不怎么好，所以只挑重点介绍一下就好。

网络结构

在这里插入图片描述
整个网络结构如上图所示，也是基于时空编码图的方法，时空编码图的构建方法：

1.首先确定人体骨骼的4个参考关节点（两肩和两腿上），选这4个关节点的原因是这4个关节点在大多数的运动中都比较稳定。（最后的实验也测试了6个关节点，但是准确率下降了，我感觉还是给出各关节点运动范围的统计更靠谱一些）
2.然后计算所有关节点与参考关节点的相对位置（dx，dy，dz），从而可以构建4个（m-1）xt的时空编码图，每一个时空编码图包含有xyzchannel。（这里其实也是有疑问的，为什么不将4个参考关节点的向量直接concat一起，这样只构建一个时空编码图就可以了，不知道作者为什么这样设置）
3.然后将其变换到圆柱坐标系中。（也不知道为什么要变换到圆柱坐标系，感觉和平面坐标系没啥区别，最然最后的实验中说使用圆柱坐标系的准确率更高）
4.然后将channel分离，每一个channel都是一个灰度帧的clip，从而可以得到3个clip，每一个clip的帧数4帧（4个参考关节点）。（虽然作者做实验发现分开的效果更好，但是我感觉不合理，不分开，使用3channel的图像也是可以的，可能只是调参的问题）

得到时空编码图以后，使用CNN提取出feature map（14x14x512），然后在feature map中沿着时间维度平均池化（结果为14x512）。
最后使用一种多任务（4个输出）学习的方法训练卷积神经网络，感觉没啥意思。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。