【ICML 2021】CLIP + Learning Transferable Visual Models From Natural Language Supervision

CLIP是一种由OpenAI开发的预训练模型,通过对比学习大量图像和文本数据理解两者关系,展示了良好的泛化能力。无需特定任务训练,可进行零-shot学习,其在图像分类等任务上表现优秀,且应用广泛,包括GAN、检测和分割等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【ICML 2021】CLIP + Learning Transferable Visual Models From Natural Language Supervision

https://arxiv.org/pdf/2103.00020.pdf

CLIP(Contrastive Language–Image Pre-training)是一个由OpenAI开发的预训练模型。它旨在通过对大量的图像和与之对应的文本数据进行对比学习,来理解图像和文本之间的关系。CLIP模型通过这种方式训练,可以在没有特定任务训练的情况下,对于多种视觉任务展现出良好的泛化能力。


这家伙有什么用呢?想象一个咱们训练图像分类的场景

训练1000个类别,预测就是这1000个类别的概率,无法拓展新增类别还得重新训练重新标注太麻烦了,能不能一劳永逸呢?这就是CLIP要解决的问题,预训练模型直接zero-shot

与前人工作对比,CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法lmagenet上的效果才十几个点,根本就不行。然后OpenAi说了,不是方法不行,是资源没到位。一个648解决不了的事,十个648就解决了,这就是CLIP。

CLIP在完全不使用ImageNet中所有数据训练的前提下,直接Zero-shot得到的结果与Resnet在128W Imagenet数据训练后效果一样。传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的,现在CLIP下游任务已经很多了,GAN,检测,分割,检索等都能玩了

如何训练?(利用对比学习)

图像编码器(Image Encoder)->图像特征

文本编码器(Text Encoder)->文本特征

计算“图像特征”和“文本特征”的余弦相似度

对角线的是正样本(蓝色),其余是负样本(白色)
 

如何推理(分类任务)?

给一些提示文本(任意个) + 合适的提示语句 --> “文本特征”,然后计算“图像特征”与每种“文本特征”的相似度,找到概率最高的即可
 

膜拜大佬!2023最新的多模态模型CLIP教程,2小时讲明白CLIP模型的原理以及底层逻辑,看完就能全面了解神器CLIP!人工智能|深度学习|计算机视觉|NLP_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pengsen Ma

太谢谢了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值