板球击球动作识别:基于硬分配和软分配的视觉词袋方法
1. 引言
体育活动识别是一个活跃的研究领域,主要包括基于传感器数据的分析和基于视觉的分析两个子领域。基于传感器的分析虽然能提供准确的测量和深入的分析,但大多数体育赛事不允许运动员佩戴额外的设备。而基于视觉的分析容易受到外部因素的干扰,如相机运动、光照、遮挡和视角变化等。
体育活动识别面临的主要问题是缺乏标注数据,大规模、细粒度标注的特定体育数据集难以获取且创建过程繁琐。研究人员通常使用预训练模型或传统学习方法结合小标注数据集来解决简单任务,并在半监督标注框架中生成推荐。
原始体育赛事转播视频可作为简单识别任务的训练数据,训练好的模型可用于构建运动员档案、辅助教练分析、自动提取事件和生成精彩片段。在板球比赛中,自动识别击球动作类型具有挑战性,本文聚焦于基于击球方向或相机运动识别击球的粗略类别。
视觉词袋(BoV)模型已被证明在序列任务中表现良好,可应用于特定领域的体育视频。本文使用BoV模型,比较基于光流和2D/3D ResNet提取的全局描述符的硬分配(HA)和软分配(SA)方法,实验表明运动特征变体是分类板球击球的良好全局描述符。
2. 相关研究
视觉活动识别在板球领域已有一些应用。例如,HawkEye系统用于跟踪球的位置和预测轨迹,广泛应用于国际赛事。此外,还有一些研究致力于板球转播视频的索引、语义概念挖掘、自动精彩片段生成等。
然而,以往的研究存在一些局限性。一些研究使用手工特征,难以在其他数据集上泛化;一些研究的数据集样本较少,缺乏大规模标注数据。本文使用Gupta等人的数据集,包含2016年T20世界杯26个未修剪的精彩视频中的562