算法论文/预训练1——NeurIPS 2022巨型预训练图像模型能否提取通用表征？中科大、西安交大、微软亚洲研究院出品

本文链接：https://blog.csdn.net/ZhouDevin/article/details/144295695

Could Giant Pretrained Image Models Extract Universal Representations?原文链接

摘要

冻结的预训练模型已成为迁移学习的预训练后再调整范式的可行替代方案。但是，对于冻结模型，可用于适应下游任务的参数相对较少，这在计算机视觉中是有问题的，因为任务在输入/输出格式和有价值的信息类型方面存在很大差异。在本文中，我们介绍了一项关于冻结预训练模型应用于各种具有代表性的计算机视觉任务的研究，包括对象检测、语义分割和视频动作识别。从这种实证分析中，我们的工作回答了以下问题：什么预训练任务最适合这种冻结设置，如何使冻结设置对各种下游任务更加灵活，以及更大模型尺寸的影响。我们还使用具有 30 亿个参数的巨型冻结预训练模型（SwinV2-G）检查了性能上限，发现它在只有一个共享冻结基础网络的情况下，在各种主要基准测试中达到了有竞争力的性能：COCO 对象检测测试开发上为 60.0 盒 mAP 和 52.2 掩码 mAP，ADE20K 语义分割上为 57.6 val mIoU，以及 Kinetics-400 动作识别的 81.7 top-1 准确率。通过这项工作，我们希望让人们更多地关注冻结预训练图像模型的这一有前途的道路。

1、引言

通过预训练后微调范式进行迁移学习是深度神经网络成功的基石。在计算机视觉中，对监督分类进行预训练的骨干网络[29,21,13,38]可以使各种视觉识别任务达到最佳性能，即使在输入或输出格式与预训练不同的任务上也是如此，例如视频动作识别[25]、对象检测[34]和语义分割[58]。在自然语言处理（NLP）中，在掩码语言建模（MLM）上预训练的微调模型也擅长各种 NLP 任务，例如，在 BERT 的情况下，在 11 项任务中 [11]。尽管非常有效，但对许多网络参数的更改会使微调参数效率低下。为每个下游任务创建一个完全不同的模型，这个问题会随着模型大小的快速增加而被放大。在 NLP 中，解决这个问题的一种势头越来越大的解决方案是在将预训练的语言模型转移到下游任务时冻结它们。引入了少量特定于任务的参数，例如特定于任务的 head [22] 或提示 [3， 30， 32， 36]，并且只有这些新添加的参数在下游任务上进行了训练，而模型的其余部分是固定的。通过这种方式，计算和内存成本大大降低，针对不同任务进行微调的模型之间具有高度的参数共享。

然而，这种参数高效的传输尚未在计算机视觉中得到关注。采用这种方法的难点在于两种模式之间的差异。在 NLP 中，不同任务的输入和输出格式相似，几乎所有任务都可以定义为一系列标记。此外，自监督掩码语言建模的主要预训练任务学习的信息在 NLP 应用程序中具有广泛价值。相比之下，计算机视觉中不存在这种统一性。视觉中的输入和输出格式差异很大，例如输入的图像/视频和高/低分辨率，以及输出的图像级别类别、目标坐标等。有价值的信息也因下游任务而异，这使得预训练任务的选择不明确。由于这些挑战，以前的研究只关注类似于预训练任务的下游任务，即图像分类[2,42,43,57,56,59]。

在本文中，我们研究了参数高效的迁移学习，它推广到一组不同的计算机视觉任务。在这种背景下，我们的工作试图回答以下问题：

1. 哪个预训练任务最适合此冻结设置？

2. 当下游任务与预训练任务明显不同时，使 frozen 设置正常工作的关键是什么？

3. 冻结设置在巨大的预训练模型（例如具有 3B 参数的 SwinV2-G）中表现如何？

我们的调查从第一个问题开始，我们考虑了四个研究最广泛的预训练任务：监督分类、对比学习、掩码图像建模和图像文本对齐。以 SwinV2-B [38， 37] 为主干，在涵盖一系列下游任务的流行视觉框架上评估预训练任务，包括用于 COCO 对象检测的 Mask R-CNN [20] 和 FPN [33]、用于 ADE20K 语义分割的 Mask2former [9] 和用于 Kinetics-400 （K400）视频动作识别的 Video Swin Transformer [39]。我们发现，在冻结设置下，监督式预训练和图像-文本对齐效果最好，而具有 ImageNet-22K 预训练的模型比 ImageNet-1K 模型表现更好。但是，冻结设置的性能仍然大大低于完全微调。

为了提高不同任务的性能，我们接下来考虑如何扩展 frozen 设置以更好地适应任务。我们研究了向任务特定的头部和基于任务的架构元素（例如用于对象检测的 FPN 和用于语义分割的解码器）添加可调参数的效果。通过性能分析和通过中心核对齐（CKA） [27] 检查不同层的特征相似性，我们对不同的任务进行了大量观察，以了解什么可以帮助弥合冻结设置和完全无效之间的性能差距。总的来说，我们发现放置得当的可调参数的数量是使 Frozen 设置正常工作的关键。

最后，我们看看模型大小对冻结设置的影响。凭借其更丰富的内容，更大的在 NLP 中发现预训练模型需要较少的可调层。尽管差异很大在预训练和微调任务之间，以及模型大小相对较小的变化，我们观察到 SwinV2-L-22K 和 SwinV2-T-1K 在对象检测方面的计算机视觉趋势相似。我们还使用在 70M 图像上训练的具有 30 亿个参数的冻结监督预训练模型（SwinV2-G）探索了冻结设置下的性能上限。借助这个巨型模型，在主要基准测试中实现了极具竞争力的性能：COCOobject 检测测试开发 60.0 盒 AP，ADE20K 语义分割 57.6 mIoU，Kinetics-400 动作识别准确率 81.7 top-1。

由于这种冻结设置的效率，可以在不同的模型大小上实现有竞争力的性能，而可训练的参数要少得多，如图 1 所示。我们希望我们的工作将激发对冻结预训练图像模型这个有前途的方向的进一步研究。所提出的方法可以作为一个简单的基线，并指导对未来工作的评估。

2、相关工作

代表性的视觉预训练任务 在整个深度学习时代，监督学习，特别是通过 ImageNet 上的图像分类 [10]，在视觉预训练中很普遍。利用大量数据，有监督的预训练模型可以通过微调有效地转移到各种下游任务 [12， 28， 26， 13， 46， 16， 38， 40， 48， 6]。然而，监督式预训练存在严重的数据饥饿问题，而获取标记数据的成本很高。为了解决这个问题，最近关于自我监督预训练的几项研究已经证明了有希望的结果，其中自我监督预训练在几个代表性的下游任务上实现了与监督预训练相当的微调性能[19,8]。其中，对比学习 [14， 19， 8， 5， 17] 和蒙版图像建模 [7， 1， 18， 54] 特别成功。对比学习比较两个图像视图，最大限度地提高正对的相似性，同时最大限度地减少负对的相似性。对于线性探测，最先进的对比模型甚至可以获得与监督模型相当的结果。不同的是，掩码图像建模通过随机屏蔽一些输入标记并重建原始信号来学习。使用蒙版图像 mod eling，可以更有效地训练大规模模型，并产生更好的微调性能。另一个工作分支利用图像-文本对，并利用自然语言作为视觉语言学习的监督。其中，使用网络爬虫数据进行图像-文本对齐预训练 [41， 24] 在视觉识别任务中显示出巨大的潜力，尤其是在零镜头设置下。iCar [53] 进一步连接了图像文本对齐和图像分类，并成功地保留了两种方法的字符。

这些预训练方法非常成功，以至于几乎所有各种视觉任务的顶级模型都与它们无关。但是，在 frozen backbone 设置中，这些针对各种下游任务的预训练任务的性能仍然未知。基于这种动机，我们在冻结设置下与四个最广泛使用的预训练任务监督分类 [38， 37]、对比学习 [31]、掩码图像建模 [54] 和图像文本对齐 [53] 进行了比较研究——使用 Swin Transformer 作为支柱。

冻结语言模型 随着当今语言模型的大规模，冻结语言模型的设置在 NLP 中变得很重要，并受到广泛关注 [35]。添加外部适配器 [22] 是朝着这个方向的直接解决方案，并且首先在该领域引入。随后，人们提出了各种特定于 NLP 的解决方案，包括快速调整 [30]、前缀调整 [32] 和低秩适应 [23]。

视觉中的冻结设置在计算机视觉中，加法模型是冻结设置研究最多的方向，其中预训练的权重被冻结，并为每个任务添加少量新参数。其中一些工作 [12， 47] 直接在现成的特征上添加新层，而另一些则引入了一个可以独立访问输入 [44， 57] 的新网络，以解决预训练模型的信息丢失问题，或者在预训练模型 [42， 2， 43] 中添加特定于任务的组件，例如批量归一化、残差适配器等。然而，之前的所有工作 [2， 42， 43， 57] 仅将加法模型用于类似于图像分类预训练任务的任务。在并发工作 [52] 中，图像分类功能仅用于对象检测和实例分割。我们的论文首次研究了不同预训练图像模型下三个具有代表性但不同的视觉任务的冻结设置，即对象检测、语义分割和视频动作识别。此外，我们还演示了我们的方法通过一个巨大的冻结监督预训练模型（SwinV2-G）的有效性，在这三个任务的主要基准上具有极具竞争力的性能。另一种途径是直接将 NLP 中的提示学习方法应用于计算机视觉 [59， 56]，但这仅限于非常具体的任务或场景，例如，需要文本编码器 [59]。

3、方法

在冻结设置下，我们采取冻结预训练的基础网络 B（·）并为每个下游任务训练专门设计的特定任务头网络 H（·）的方法。

3.1 架构组件

基础网络 我们将专为图像分类而设计的深度神经网络，例如 VGG [49]、ResNet [21] 或 ViT [13] 表示为基础网络 B（·）。在某些情况下，基础网络也称为主干网络，它旨在提供有关输入的一些核心认知或感知信息。在 frozen 设置中，基础网络 B（·）预训练后，转移到下游任务时我们不会更新它，即基础网络没有用于下游任务训练的可调参数。对于基础网络，我们采用通用的主干架构，例如大多数实验的 Swin Transformer [38]，它与广泛的视觉任务兼容，无需特定于任何下游任务的组件。我们注意到 Swin Transformer 具有高度可扩展性，其巨型版本由 30 亿个参数组成 [37]。

网络头 我们将传输到下游任务期间新添加和调整的特定于任务的网络表示为头网络 H（·）。请注意，vision 中的输入和输出格式差异很大，因此我们方法的一个关键组成部分是有效地使 head 网络适应下游任务的属性。通过合适的头部设计，我们发现这个简单的框架通常在冻结预训练图像模型设置下的采样下游任务中表现良好

3.2 预训练

我们考虑了使用最广泛的预训练任务——监督分类 [38， 37]、对比学习、掩码图像建模和视觉语言学习——以 Swin Transformer 为基础网络。具体来说，我们利用了专门为这些预训练任务设计的 Swin Transformer 变体，例如，用于监督分类的原版 Swin Transformer [38， 37]、用于对比学习的 EsViT [31]、用于掩蔽图像建模的 SimMIM [54] 和用于视觉语言学习的 iCar[53]，这些都是开源的。为了公平比较，在预训练任务中主要使用相同的基本网络容量，例如使用具有 224×224 输入和窗口大小为 7 的 Swin Transformer

3.3 下游任务的冻结设置

冻结设置的一个主要挑战是不同视觉任务的输入和输出格式不同，例如以高分辨率图像作为输入和目标坐标以及以相应类别作为输出的对象检测，以高分辨率图像作为输入和像素级类别作为输出的语义分割，以及以低分辨率视频作为输入和视频级类别作为输出的视频动作识别。因此，使冻结的基础网络适应新任务需要仔细的模型设计，包括合适的框架和头部网络，以弥合预训练和微调之间的差距。

对象检测 为了使冻结的预训练模型适应对象检测任务，我们提出了一些调整。首先，对象检测通常需要高分辨率图像作为输入，并且在主干架构中需要较大的窗口尺寸，而预训练任务需要低分辨率的图像和较小的窗口尺寸。我们发现，直接将输入图像的大小从小更改为大，但保持窗口大小不变，效果相对较好。其次，在对象检测中，保持输入图像的纵横比是可取的，因此默认情况下，每个图像都允许任意输入分辨率，在特征图的边界上带有不需要的填充，从而改变特征的分布。我们通过采用类似于图像分类的多尺度增强来解决这个问题。它随机调整原始图像的大小，然后随机裁剪调整大小后图像的正方形部分 [15]。第三，对象检测通常使用多分辨率特征图作为头部网络的输入，而大多数预训练任务只采用基础网络的最终输出。使用 Swin Transformer 作为基础网络使我们能够直接将不同阶段的输出特征作为 head 网络的输入，我们发现这种选择在经验上效果很好。为了评估这项任务，我们采用了 COCO 2017 [34]，这是使用最广泛的对象检测和实例分割基准，它包含 118K 训练、5K 验证和 20K 测试开发图像。

语义分割 语义分割旨在对高分辨率图像进行像素级分类，具有许多与对象检测相似的特性。例如，语义分割还需要更大的输入分辨率和窗口大小，以及多分辨率特征映射，以便以更精细的粒度进行视觉识别。在这两点上，我们获得了与对象检测类似的语义分割观察结果：在窗口大小不变的情况下，更大的输入实现了相对较好的性能，并且直接使用 Swin Transformer 不同阶段的输出特征作为头部网络的输入也适用于语义分割。对于这项任务，我们采用最广泛使用的基准 ADE20K [58] 进行评估。ADE20K 涵盖 150 个语义类别。它总共有 25K 图像，其中 20K 用于训练，2K 用于验证，另外 3K 用于测试。

视频动作识别使冻结的预训练图像模型适应视频动作识别的主要挑战在于不同的输入格式。视频动作识别旨在识别每个输入视频的动作类型，该视频由一系列视频帧组成（例如，每个剪辑 16 帧）。因此，在视频动作识别中，必须同时捕捉空间和时间关系。以前基于完全微调的工作主要集中在探索基础网络中空间和时间关系的同步建模。然而，对于冻结设置，预训练模型只能进行空间推理，因此 head 网络必须补偿时间建模的不足。对于人体动作识别的任务，我们采用了广泛使用的 Kinetics-400 [25] 数据集，该数据集包括 400 多个人体动作类别的 ∼240k 训练视频和 20k 验证视频。

4、哪个预训练任务最适合 Frozen 设置？

在本节中，我们评估了冻结设置下的四种流行的预训练任务，即监督预训练、对比学习、掩码图像建模和视觉语言学习。具体来说，我们使用了六个预训练的 Swin Transformer 模型，包括 ImageNet 1K （SUP-1K）上的监督预训练、ImageNet-22K （SUP-22K）上的监督预训练、ImageNet-1K （EsViT-1K）上 EsViT 的对比学习、ImageNet-1K （SimMIM-1K）上 SimMIM 的掩码图像建模、Laion 上 iCar 的图像文本对齐[45]（iCar-Laion），以及 Laion 和 ImageNet-22K （iCar-Laion-22K）上 iCar 的图像文本对齐和图像分类的联合训练。对于下游的 5 个任务，我们采用 SwinV2-B[37] 作为基础网络和三个广泛使用的框架作为头网：MaskR-CNN[20]，其中 FPN[33] 用于 COCO 对象检测，Mask2Former[9] 带有一个块像素解码器，用于 ADE20K 语义分割，以及 aspatial-onlyVideo Swin-Transformer[39] 变体，其中 atemporalwindowsizeof1，withalinearhead，用于 Kinetics-400 动作识别。

结果显示在 Table1 中。对于在 ImageNet-1K 数据集上预训练的模型，我们可以观察到 SUP-1K和 EsViT-1K 在几乎所有基准测试中都执行类似的操作，包括完全微调和冻结设置。这种现象是可以理解的，因为 EsViTis 的线性评估结果相对较高，表明 EsViT-1K 提取的特征与 SUP-1K 对应物相似。SimMIMpretrainedmodel在fullfinetuningsetting中执行竞争性高。例如，它在 COCO 上实现了更好的性能，在 ADE 上实现了相当的性能，而在 K400 上的性能略差，与 SUP-1K 对应物相比，SimMIM-1K 模型在所有基准测试中表现不佳。这在ImageNet-1K上从它的poorlinearevaluationperformances中可以看到，表明它的输出特征没有捕获高级语义。iCAR-Laion模型的表现优于SUP-1KandEsViT-1Konalmostall的基准测试，表明从大规模图像文本数据集中学习的有效性。此外，在 Laion 和 ImageNet-22K 上联合训练后，iCAR-Laion-22K 模型与 SUP-22K 模型取得了相似的结果，我们还观察到 SUP-22K 模型在所有设置下都明显优于 SUP-1K，反映了数据缩放为监督预训练带来的巨大好处。一般来说，我们发现有监督的预训练在冻结设置下效果最好，在接下来的实验中，我们默认采用有监督的预训练模型。然而，在所有三个下游任务中，仍处于 under 下的冻结设置通过大量边距执行完全微调。

5、冻结设置有效的关键是什么？

为了改进性能超过不同的任务，在本节中我们考虑了如何扩展冻结设置以更好地适应任务。对于以下调查，我们利用性能最佳的预训练任务，在 ImageNet-22K （SUP-22K）上监督分类。

5.1 在网络头中添加更多可调参数

在某种程度上，冻结设置的糟糕性能是可以理解的。尽管预训练和下行任务存在显著差异，但基础网络中的所有参数都锁定在冻结设置中，并且只有少数新添加的参数区域可用于任务适配。因此，直接的解决方案是向特定于任务的 headnetworks 添加更多可调参数。由于 headnetwork 的下行任务各不相同，我们提出了有关如何向 head 添加参数的特定任务策略。

ObjectDetection 对于对象检测，我们采用了 MaskR-CNN[20]的框架，以 FPN[33] 作为头网络。以前的MaskR-CNN工作主要探讨了对FPN和box/maskhead的改进，因此我们还研究了这两个组件的共同替代方案，例如，将FPN 与 BiFPN [51] 或在 FPN 中添加更多残余块，并将原版盒/掩码头更改为级联盒/掩码头 [4]。结果如表 2 所示。我们可以观察到，向 FPN 添加参数，例如，用 BiFPN 替换 FPN 或添加更多残差块，都显着弥合了冻结设置和完全微调之间的差距，分别为 -6.9 到 2.6 盒 mAP 和 -6.9 到 0.4 盒 mAP。由于 BiFPN 经过精心设计，在多分辨率特征图之间具有许多交互，因此用 BiFPN 替换 FPN 优于在 FPN 中添加更多残差块的模型。但是，用级联头 [4] 替换盒/掩膜头可以提高冻结和完全微调设置的性能，从 45.0 到 49.0 盒 mAP 和 51.9 到 54.5 盒 mAP，但并不能弥合它们之间的差距。因此，发现向 FPN 添加更多可调参数比向 box/mask 头添加更多参数更有效。

为了理解这种行为差异，我们进行了性能分析，并通过中心内核对齐（CKA）检查了 BiFPN 和 Cascade Head 中不同层的特征相似性 [27]。如图 3 （a）所示，对于 BiFPN 的每个阶段（具有不同分辨率的特征图），我们绘制了输入特征（阶段 x 的 Px）和每个块的输出（块 x 的 Fx）之间的 CKA 相似性。对于级联头，如图 3 （b）所示，我们绘制了每个阶段的输入特征（阶段 i 中的 Fsi RoI）和每个阶段内部的隐藏特征（Fsi j：阶段 i 中 j 块的输出）之间的 CKA 相似性。从这个图中，我们可以观察到，除了最后一个输出外，级联头中跨层甚至阶段的特征几乎相同，但在 BiFPN 中，不同层的特征是不同的（CKA 相似度较低）。换句话说在 cascade head 中，几乎无法提供有用的计算。这种差异可以用 BiFPN （图 3（c））和级联头（图 3（d））的架构来解释。BiFPN 遵循顺序结构，其中每个块的输入是前一个块的输出。级联头遵循并行结构，所有阶段都从原始的多分辨率特征图中提取 RoI 特征，使得每个阶段的输入都具有极高的 CKA 相似性。此外，每个阶段进行的转换也类似。级联头的最后一个输出的行为不同，因为它后面跟着一个池化层，这被证明对 CKA 相似性有很大影响。因此，位置合适的可调参数的数量是使 Frozen 设置正常工作的关键

语义分割 对于语义分割，我们采用 Mask2former [9] 作为头网络，有一个 1 块像素解码器和 4 块 transformer 解码器。Mask2former 的框架类似于对象检测中的 Mask R-CNN，其中像素解码器对应于 FPN，变压器头对应于盒/掩码头。因此，我们采用类似于对象检测的设置，通过增加这两个主要组件中的参数数量，例如，将像素解码器更改为 6 个块，将变压器解码器更改为 10 个块。如表 3 所示，可以观察到类似的结果，其中扩大像素解码器比扩大变压器头更有助于弥合差距。我们还对这个框架执行 CKA 分析，并观察对象检测中的类似行为，如附录所示。

视频动作识别 对于视频动作识别，捕捉空间和时间关系至关重要，但预训练模型只能进行空间推理。因此，在 frozen 设置下，需要在 head 网络中补偿时间建模的缺失。在我们的实验中，我们采用了一种时空后时间的 Video-Swin-Transformer [39] 框架，该框架通过额外的 Transformer 块进行了增强，无论是仅时间的还是全局的（时空的）。在表 4 中，我们可以观察到，在 full finetuning 设置下，添加全局块和添加临时块的工作方式与线性分类器类似。另一方面，在 frozen 设置中添加时间块比线性分类器设置的性能要好得多，这验证了时间推理的必要性。此外，在冻结设置中添加全局块比添加仅临时块要好得多。尽管基础网络经过了空间推理的预训练，并添加了全局块，但 frozen 和 full f inetuning 设置之间仍然存在重要的差距。这可能是由于原始特征中缺少一些信息，剩余的差距可以通过进一步引入一个可以独立访问输入的网络来减少，这超出了本文的范围，留给未来的工作。

5.2 更大的预训练基础网络需要更小的头部网络吗？

当预训练模型变大时，它通常包含更丰富、更有价值的信息，因此对于下游任务，我们通常期望更大的预训练模型不需要那么大的 head。在 NLP 中，验证了当预训练模型非常大，例如 173B。对于计算机视觉，我们seekan回答当前最好的预训练模型是否具有相似的属性。我们对不同大小的预训练模型进行了实证研究，SwinV2-T/B与ImageNet-1K预训练，以及SwinV2-B/L与ImageNet-22K预训练，在三个代表性的下游任务上。从图 4（a）中，在 COCO 对象检测上，我们出乎意料地观察到了一个明显的趋势，即 SwinV2-L-22K 需要较少的参数来收敛（a5 层BiFPN），而 SwinV2-T-1K 需要更多的参数来收敛（a9 层BiFPN）。在图 4（b）中的 ADE20K 语义分割中，我们还发现 SwinV2-T-1K 需要更多的参数来收敛（a6 层像素解码器）等更大的基础网络。在 Kinetics-400 视频动作识别中，图 4（c），不同的模型似乎需要相似数量的参数才能收敛。这个观察与前面的情况相匹配，经过仔细的调整，视频动作识别的冻结和全微调设置之间仍然存在一个不小的差距（如表4所示），说明预训练和视频识别任务的差异比其他任务更大

6、不同大小基础网络的结果

针对每个下游任务，我们仔细设计了头部网络，将不同规模的基础网络与最佳设置和全微调设置进行了比较，包括SwinV2-T/B在ImageNet-1K上预训练，SwinV2-B/L/L预训练在ImageNet-22K上，如表5所示，在COCOobject检测上，性能差距被很好地弥合，其中SwinV2-B/L-22K甚至在两个不同的头部网络的冻结和全微调设置下实现了与性能相当。但是在 ADE20K 上，仍然存在显着的性能差距。例如，使用 SwinV2-L-22Kas 基础网络，冻结设置仍然低于 2.1mIoU 的完全微调设置，在视频动作识别 Kinetics-400 上也可以观察到冻结和完全微调设置之间的巨大性能差距。有趣的是，ImageNet-1K预训练模型的性能差距明显大于在ImageNet-22K上预训练的模型，这表明将预训练数据集从ImageNet-1K扩大到ImageNet-22K有助于弥合预训练和微调动作识别的任务差距。此外，我们还探索了冻结设置下的性能上限，使用一个在 70M 图像（SwinV2-G）上训练了 30 亿个参数的冻结监督预训练模型，如表 5.所示，使用这个巨型模型，在主要基准测试上实现了极具竞争力的性能：59.3/60.0boxmAP和 51.6/52.2maskmAPonCOCOvalidation/test-devsets，57.6mIoUon ADE20K 语义分割，以及 81.7top-1 的 Kinetics-400action 识别精度。

7、Frozen Setting 何时优于 Full Finening？

为了进一步探索冻结设置的潜力，我们将其与低数据情景下的 fullfinetuning进行了比较。更具体地说，我们使用 COCOtraining 数据集的一小部分测试了这两个设置。遵循半导体监督学习的标准实践[50,55]，构建了两个数据集，分别只有1%和10%（分别约为12K和120Ktrainingimages）的COCO。

结果如表6所示，对于1%标注数据的训练，当采用FPNhead时，冻结设置实现了与全微调相当的性能竞争力。随着 BiFPN 图层数量的增加，我们可以观察到 frozen 设置的性能有稳定的提升，而 full finetuning 的性能较差，这表明 full finetuning 设置存在过拟合问题。对于10%数据的训练，冻结设置和以FPN为headnetwork的完全微调之间的性能差距为-3.1boxmAP.与在fullCOCO训练数据集上的训练相比，这个差距从-6.9boxmAP减少到-3.1boxmAP.当用BiFPN替换FPN时，冻结设置通过完全微调，具有2.9boxAP和2.6掩码AP的明确边距。

8、结论

在本文中，我们提出了针对各种计算机视觉任务的冻结预训练模型的详细实证研究。根据我们的观察，我们提出了扩展冻结设置以有效处理各种下游任务的策略，并且还发现一个具有坚实性能的通用表示优于各种基准测试，可以学习到一个巨型冻结模型。我们的研究突出了这种迁移学习方法的巨大潜力，我们希望它能激发人们对这个研究方向的进一步兴趣