基于YOLO - V2的实时多手势识别系统研究
1. 方法概述
在无约束环境下进行实时多手势识别,提出了基于YOLO - V2的单阶段卷积神经网络(CNN)框架。YOLO - V2克服了诸如单阶段多框检测器(SSD)和基于区域的快速卷积神经网络(Faster - RCNN)等其他识别系统所面临的挑战。它是传统YOLO架构的改进版本,提高了预测精度和计算速度,并且利用DarkNet - 19 CNN架构作为从图像中提取特征向量的骨干网络。
1.1 数据集及预处理
使用了三个数据集进行模型的训练和评估,包括NUS Hand posture - II(NUSHP - II)数据集、Senz 3D hand dataset(SENZ - 3D)和自定义的MITI Hand Dataset(MITI - HD)。以下是数据集的详细信息:
- MITI - HD数据集 :从一组人群中收集的个性化手部动作数据集,包含不同肤色、复杂背景、各种尺寸、光照变化和几何形状等参数。该数据集有10个分类,每个分类有750个数据样本,总计7500个样本。
- 数据预处理步骤 :
1. 使用自适应插值技术将所有样本重新调整为300×300像素的尺寸。
2. 在图像区域点外添加白色像素以保持宽高比。
3. 进行感兴趣区域(ROI)选择,即标注,这是一种在帧上指定区域的机器学习方法。
4. 按照80:20的比例划分训练和测试数据样本。
5. 数据样本分离后进行特征提取和训练过程。
1.2 YOLO - V2模型架构
-
<