【ICML 2021】CLIP + Learning Transferable Visual Models From Natural Language Supervision
https://arxiv.org/pdf/2103.00020.pdf
CLIP(Contrastive Language–Image Pre-training)是一个由OpenAI开发的预训练模型。它旨在通过对大量的图像和与之对应的文本数据进行对比学习,来理解图像和文本之间的关系。CLIP模型通过这种方式训练,可以在没有特定任务训练的情况下,对于多种视觉任务展现出良好的泛化能力。
这家伙有什么用呢?想象一个咱们训练图像分类的场景
训练1000个类别,预测就是这1000个类别的概率,无法拓展新增类别还得重新训练重新标注太麻烦了,能不能一劳永逸呢?这就是CLIP要解决的问题,预训练模型直接zero-shot
与前人工作对比,CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法lmagenet上的效果才十几个点,根本就不行。然后OpenAi说了,不是方法不行,是资源没到位。一个648解决不了的事,十个648就解决了,这就是CLIP。
CLIP在完全不使用ImageNet中所有数据训练的前提下,直接Zero-shot得到的结果与Resnet在128W Imagenet数据训练后效果一样。传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的,现在CLIP下游任务已经很多了,GAN,检测,分割,检索等都能玩了
如何训练?(利用对比学习)
图像编码器(Image Encoder)->图像特征
文本编码器(Text Encoder)->文本特征
计算“图像特征”和“文本特征”的余弦相似度
对角线的是正样本(蓝色),其余是负样本(白色)
如何推理(分类任务)?
给一些提示文本(任意个) + 合适的提示语句 --> “文本特征”,然后计算“图像特征”与每种“文本特征”的相似度,找到概率最高的即可
膜拜大佬!2023最新的多模态模型CLIP教程,2小时讲明白CLIP模型的原理以及底层逻辑,看完就能全面了解神器CLIP!人工智能|深度学习|计算机视觉|NLP_哔哩哔哩_bilibili