In Search of Lost Online Test-time Adaptation: A Survey--论文笔记-CSDN博客

本文链接：https://blog.csdn.net/dezwb/article/details/140062658

论文笔记

资料

1.代码地址

https://github.com/jo-wang/otta_vit_survey

2.论文地址

https://arxiv.org/abs/2310.20199

3.数据集地址

1论文摘要的翻译

本文介绍了在线测试时间适应(online test-time adaptation,OTTA)的全面调查，OTTA是一种专注于使机器学习模型适应批量到达时的新数据分布的新方法。尽管最近OTTA方法得到了广泛应用，但该领域仍陷入了诸如模糊设置、过时的主干网络和不一致的超参数调优等问题，这些问题混淆了真正的挑战，并使可重复性难以捉摸。为了清晰和严格的比较，我们将OTTA技术分为三个主要类别，并使用强大的视觉转换(ViT)主干对它们进行基准测试，以发现真正有效的策略。我们的基准涵盖了传统的损坏数据集，如CIF AR-10/100C和ImageNet-C，以及CIF AR-10.1和CIF AR-10-Warehouse中体现的真实变化，通过扩散模型封装了搜索引擎和合成数据的变化。为了衡量在线场景中的效率，我们引入了新的评估指标，包括GFLOPs，揭示了适应精度和计算开销之间的权衡。我们的研究结果与现有文献不同，表明:(1)Transformer对不同的域位移表现出更高的弹性;(2)许多OTTA方法的有效性取决于充足的批量;(3)优化的稳定性和对扰动的抵抗在适应过程中至关重要，特别是当批量大小为1时

在这些见解的激励下，我们指出了未来研究的有希望的方向。

2问题背景

这里主要介绍问题的定义，并介绍了广泛使用的数据集、指标和应用。并且提供OTTA的正式定义，并深入研究其基本属性。此外，我们探索了广泛使用的数据集和评估方法，并研究了OTTA的潜在应用场景。进行比较分析，以区分OTTA与类似的设置，以确保清晰的理解
在这里插入图片描述

2.1问题定义

2.2 数据集介绍

2.2.1 CIFAR-10-C

图像分类的标准基准。它包含950,000张彩色图像，每张32 × 32像素，跨越10个不同的类。CIF AR10-C保留了CIF AR-10的分类结构，但纳入了15种不同的损坏类型，严重程度从1级到5级不等。这种损坏的变体旨在模拟在图像采集、存储或传输等过程中可能出现的真实图像失真或损坏。

2.2.2 CIFAR-100-C

95万张32 × 32像素的彩色图像，均匀分布在100个独特的类别中。CIF AR-100损坏数据集，类似于CIF AR-10-C，将人工损坏集成到规范的CIF AR-100图像中。

2.2.3 ImageNet- c

ImageNet测试集的损坏版本。由ImageNet-1k生成，ImageNet-C有19种类型的损坏域，包括4种验证损坏。对于每个领域，产生了5个严重级别，每个严重级别有来自1000个类的50,000个图像。

以上数据集人为创建的领域差异
以下数据集是现实世界的实验基准

2.2.4 CIFAR-10.1

具有与CIFAR-10相同标签空间的真实测试集。它包含大约2000张从Tiny Image数据集采样的图像

2.2.5 CIFAR-10-Warehouse

集成了来自两种扩散模型的图像，特别是稳定扩散，以及七个流行搜索引擎的目标关键字搜索。包含37个生成数据集和143个真实数据集，每个子集有300到8000张图像，在不同的搜索标准中显示出明显的类内变化。

2.3 评估指标

2.3.1 Mean error

它计算所有损坏类型或域的平均错误率。
虽然有用，但这个指标通常不能在OTTA中提供特定于类的见解。

2.3.2 GFLOPs

指每秒千兆次浮点运算，它量化了一个模型在一秒钟内执行的浮点运算次数。GFLOPs越低的模型计算效率越高

2.3.3 Number of updated parameter

提供了对适应过程复杂性的见解。需要大量更新参数的模型可能不适合在线自适应。

2论文的贡献

据我们所知，这是第一次关于在线考试时间适应的重点调查，它提供了对三个主要工作机制的透彻了解。广泛的实验调查是在公平的比较环境中进行的。
我们在VIT架构下重新实现了具有代表性的Otta基线，并在五个基准数据集上验证了它们的性能。我们驱动了一组替换规则，使现有的OTTA方法适应新的主干。
除了使用传统的识别精度指标外，我们还通过每秒千兆浮点运算(GFLOPS)进一步提供了对计算效率的各个方面的见解。这些指标在实时流应用中非常重要。
虽然现有文献广泛探索了OTTA方法在CIFAR-10-C、CIFAR-100-C和ImageNet-C等腐败数据集上的应用，但我们更感兴趣的是它们导航真实世界数据集变化的能力。具体地说，我们评估了OTTA在CIFAR-10-Warehouse,，CIFAR-10-Warehouse,是CIFAR-10的一个新引入的、可扩展的测试集。我们的实证分析和评估导致了与现有调查结果不同的结论。

3 论文方法的概述

鉴于在线数据与源训练数据的分布差异，OTTA技术大致分为三类，这取决于它们对两个主要问题的反应：管理在线数据和缓解由于分布变化而导致的性能下降。基于优化的方法以设计无监督目标为基础，通常倾向于调整或增强预先训练的模型。基于模型的方法着眼于修改或引入特定的层。另一方面，基于数据的方法旨在扩大数据多样性，要么改善模型泛化，要么协调数据视图之间的一致性。这里的方法可以看到会不类所使用的方法。
在这里插入图片描述

3.1 Optimization-based OTTA

三个子类 (1) recalibrating statistics in normalization layers, (2) enhancing optimization stability with the mean-teacher model(3) designing unsupervised loss functions 下图为上述策略发展实践线在这里插入图片描述

3.1.1 Normalization Calibration

Tent

3.1.2 Mean Teacher Optimization

RoTTA
这种方法涉及使用预先训练的源模型来初始化教师模型和学生模型。对于任何给定的测试样本，都会创建弱和强增强版本。然后，每个版本都由学生和教师模型进行相应的处理。这种方法的关键在于使用预测一致性，也称为一致性正则化，来更新学生模型。该策略旨在从不同的数据视图实现相同的预测，从而降低模型对测试数据变化的敏感度，并提高预测的稳定性。
教师模型被改进为学生在迭代中的移动平均值。值得注意的是，在OTTA中，Mean教师模型和基于BatchNorm的方法并不是相互排斥的；事实上，它们可以有效地集成在一起。将BatchNorm更新纳入教师-学生学习框架可以产生更稳健的结果第四节。同样，Mean-Teacher模型与以数据为中心(如3.2小节所述)的集成。或模型驱动(详见第节3.3)的方法为进一步提高OTTA的预测精度和稳定性提供了希望，标志着该领域向前迈出了重要的一步。

Model updating strategies.
遵循均值-教师学习的思想，ViDA利用教师的预测和增加的输入来监控学生的输出。它还引入了更新的高/低等级适配器，以适应持续的OTTA学习。

3.1.3 Optimization Objective

在测试数据数量有限的情况下，设计合适的优化目标是非常重要的。图4总结了常见的基于优化的在线测试时间适应(OTTA)。现有文献使用以下三种主要策略来解决优化问题。
在这里插入图片描述

策略1：Optimizing (increasing) confidence
一种直观的方法是增强模型对测试数据的置信度
- Entropy-based confidence optimization
  该策略通常旨在最小化Softmax输出向量的熵： $H(y^)=−∑cp(y^c)log⁡p(y^c),(5)H(\hat{y})=-\sum_cp\left(\hat{y}_c\right)\log p\left(\hat{y}_c\right),\quad(5)$