【JUST读论文一些不偏视觉的CLIP相关工作】

原创

已于 2024-03-27 22:04:23 修改 · 1.2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #论文笔记 #深度学习

于 2024-03-27 21:59:13 首次发布

本文解读了几篇CCF A会的CLIP相关论文。Improving CLIP Fine - tuning Performance通过蒸馏将图像级变为token级别改进微调性能；SoftCLIP引入自监督信号实现软跨模态对齐；S - CLIP用伪标签解决特定领域数据少问题；Filip实现细粒度语言图像预训练。最后作者思考了CLIP在多模态的发展前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

JUST读论文一些不偏视觉的CLIP相关工作

提示：当前可能文章内容不全，但是读论文还是主要有一个自己筛选信息的过程，这里算是我的读论文笔记，也可以说是翻译

JUST读论文一些不偏视觉的CLIP相关工作
前言
一、Improving CLIP Fine-tuning Performance 2023 ICCV
二、SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger 2024 AAAI
三、S-CLIP: Semi-supervised Vision-Language Pre-training using Few Specialist Captions 2023NeurIPS
四、Filip: Fine-grained interactive language-image pre-training 2022 ICLR
总结与思考

前言

这次主要看这几篇CCF A会论文，顺序是按照吴恩达大师推荐的顺序：标题 abstract figure intro conclusion …

**Improving CLIP Fine-tuning Performance ** 2023 ICCV
核心思想：作者认为MIM比CLIP在下游任务微调发挥的作用好，其中token级是MIM的关键，因此通过蒸馏将图像级变成token级别
当前进度：读完table1我持怀疑，目前读完abstract intro
代码：https://github.com/SwinTransformer/Feature-Distillation
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger 2024 AAAI
核心思想：加入了自监督信号，不至于CLIP硬性 0 1。CLIP是硬性的0-1配比，给负对一些值能够防止灾难性失误，同时有效利用样本数据，充分使用了模态内的监督信息
代码：无
S-CLIP: Semi-supervised Vision-Language Pre-training using Few Specialist Captions 2023NeurIPS
核心思想：利用伪标签填补特定领域数据少的问题
Filip: Fine-grained interactive language-image pre-training 2022 ICLR
核心思想：patch和单词匹配的细粒度CLIP
代码：https://github.com/lucidrains/x-clip

一、Improving CLIP Fine-tuning Performance 2023 ICCV

改进CLIP微调性能

abstarct

CLIP模型有很好的0-shot识别准确性，然而他们在下游任务的微调性能却不那么好。相反，掩图像建模这个目标函数在下游任务微调中发挥了很好微调作用，即使在训练的时候有语义标签的缺失。我们发现两类任务有不同的配件：图像级别的目标 VS token级别的目标， cross-entropy loss VS. regression loss ,完整图像输入和局部图像输入。为了减轻这种差异，我们引入经典的feature map蒸馏框架，能够在构建任务包含的MIM（masked image modeling）的关键部分时，继承CLIP模型的语义能力。实验证明这一方法在几个典型的下游视觉任务上有效改进微调性能。同时这个方法能后产生新的CLIP representation。并且这个feature map distillation方法能够泛化到其它预训练模型.

intro

预训练微调范式是有效的，通常在Imagenet1K数据集上训练的预训练模型权重作为初始化，但是有两个问题：扩充高质量图像分类数据以及类别标签上有限的语义信息。

CLIP解决了以上问题，有强大的语义建模信息。同时一个新的自监督预训练方式称为MIM（masked image modeling）具有优秀的微调性能。在不失去广泛性的情况下，主要讨论MAE。

对比这两种预训练方式：CLIP由于其卓越的线性探测性能，能够在Imagenet1K上学习更丰富的语义信息，然而在其他任务上都差于MAE。解码上面两种训练方式为输入比例、训练目标粒度和训练损失，实验结果排除了训练损失的影响，而输入比例（完整图和局部图）和训练目标粒度（图像级别和token级别）可能是关键因素。但是CLIP训练的图像级别换成token级别是极具难度的，因为现有视觉语言训练数据更适合图像级别监督而缺乏细粒度信息。

知识蒸馏是将知识从一个模型迁移到另一个最常使用的技巧，尤其是模型压缩，本文利用知识蒸馏将图像级别转换为token级别。使用预训练CLIP模型作为老师模型，使用输出的feature map作为蒸馏目标，将信息蒸馏到随机初始化的学生模型，该学生模型具有和老师模型一样的大小和架构。尽管学生模仿老师的输出，他们不同的优化路径导致了中间层不同的属性，该层被认为对于微调很重要。

蒸馏框架的灵活性允许我们引入正确的偏置和正则化来塑造学生模型的优化路劲以提高学生模型在下游任务上的性能。有以下几个关键的调整：教师feature map的标准化，稳固输出并扩大教师模型包含的精妙信息；不对称drop path rates，提升学生模型的表征鲁棒性并和教师模型一致且准确；引入的偏置进一步增强学生模型的转换不变性。

所以最后创造了一个既有强语义信息又能对下游任务友好的模型。当扩大模型到最大的CLIP-L/14模型后，这种改进也一直保持。并且，当模型泛化到其它模型是，比如DINO、DeiT以及先进的SwinV2-G，仍然能在下游任务上获得良好的收益。

除了展示先进的实验结果，还提出了几个诊断工具来分析从不同模型上习得的视觉表征。这些分析提供关于特征蒸馏如何改进CLIP模型更深层次的理解：在CLIP模型更深的层多样化不同的注意力头；改进习得的特征的转移不变性；扁平化损失并体现优化友好性。