Semi-supervised Object Detection: A Survey on Recent Research and Progress
半监督目标检测(SSOD)因其较高的研究价值和实用性而受到越来越多的关注。它旨在通过使用少量标记数据和大量未标记数据来学习信息。
半监督学习是一种将监督学习与无监督学习相结合的学习方法,关注的是如何在训练过程中合理使用有标记和未标记的样本。它通过应用一些假设来建立预测样本与学习目标之间的关系:
(1)平滑性假设假设两个样本靠近位于一个高密度区域时,它们更有可能具有相同的类标签。
(2)聚类假设假设当两个样本在同一聚类中时,它们很可能属于同一类。
(3)流形假设假设两个样本在低维流形中的小局部邻域内具有相似的类标签。
用于图像分类的半监督学习方法可以分为以下几类:
生成方法;基于图的方法;一致性正则化方法;伪标签方法和混合方法。
数据增强
数据增强是提高模型泛化和鲁棒性的关键,是SSOD的第一步。为了提高模型的鲁棒性,合理利用未标记的数据信息,采用一致性正则化对增广数据进行约束,保证输出标签的一致性。由于不同的方式之间存在差异,因此增强的方式也有很大的不同。
模型泛化能力指的是模型对于新的、未见过的数据的适应能力。
模型鲁棒性则是指模型对于输入数据中的扰动或噪声的稳定性。
一致性正则化能够确保模型在受到微小扰动(噪声)后,预测结果不会发生显著变化,即输出具有一致性。
A.强增强方法
强增强方法可以很容易地丰富数据集,提高模型性能。文章中的方法利用颜色抖动、灰度、高斯模糊和裁剪补丁来增强数据。切出的正则化效果较弱。
B.弱增强方法
弱增强通常使用简单的图形变换。随机水平翻转、随机调整大小和多尺度是一些常规的弱增强方式。Mixmatch通过随机混合来自不同类别的图像来扩展训练数据集。混合存在背景与对象混合的类模糊问题。
C.混合增强
为了避免上述问题,在MUM方法[25]中对小批未标记图像同时进行弱增强和强增强。此外,即时教学[24]将马赛克直接应用到基于伪标签的SSOD框架中。STAC[26]探索了变换操作的不同变体,并确定了一组有效的组合:1)全局颜色变换;2)全局几何变换;3)箱级变换。
Mosaic通过随机执行两种混合风格(水平混合和垂直混合)并相应地混合它们的注释来实现
半监督策略
从过程的角度对SSOD进行分类
伪标签
使用预训练的模型对未标记的图像进行伪标签估计,然后在增强后用标记和未标记的数据联合训练模型。
伪标签的生成过程
Self-training
通过标记数据训练出一个好的教师模型,该模型用于预测未标记的数据,最后使用所有的数据训练出一个学生模型。目前,许多SSOD方法利用自训练的未标记样本信息进行伪标签预测。它通过在训练过程中使用带有伪标签的高置信度样