孟加拉语地名识别与青少年面部验证研究
1. 孟加拉语地名识别
1.1 深度学习与迁移学习
深度学习在图像分类领域取得了显著成就,但从头开始为每个新数据集训练深度学习模型并非可行方案。因为这不仅需要新数据集的标注样本,还会消耗大量的时间和资源。
一种可行的解决方案是迁移学习,即冻结初始层的权重,仅在新数据集上训练网络时学习前几层的权重。不过,这种设置仍需要新数据集中的一些标注样本。另一种方法是使用已学习的模型权重,并利用该模型从新数据集的图像中提取特征,本研究采用了这种方法。
1.2 实验设置与结果
1.2.1 数据集
本研究使用了包含 608 个类别的 60800 张图像数据集,以及一个全新的包含 270 张手写城市名称单词图像(来自 3 个类别)的数据集,这两个数据集的类别没有交集,且所有文本均为孟加拉语书写。
1.2.2 模型与评估指标
使用了五种标准的卷积神经网络(CNN)架构:ResNet152 V2、MobileNet V2、Xception Net、Inception V3 和 VGG16。评估指标包括准确率、训练轮数、模型大小和预测时间。
1.2.3 地名预测结果
Network | Fold 0 | Fold 1 | Fold 2 | Fold 3 | Fold 4 |
---|