『NLP学习笔记』CLIP文本图像自监督学习解读

AI大模型前沿研究

已于 2023-12-29 15:22:14 修改

阅读量2.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP学习笔记文章标签：自然语言处理学习人工智能 CLIP 多模态

于 2022-03-17 02:06:33 首次发布

引用请附上作者博客链接https://zhangkaifang.blog.csdn.net/，谢谢理解！

本文链接：https://blog.csdn.net/abc13526222160/article/details/123539775

NLP学习笔记专栏收录该内容

29 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

CLIP（Contrastive Language-Image Pre-training）是一种使用4亿对图文数据进行预训练的模型，实现了零样本迁移。模型通过对比学习使文本和图像特征对齐，应用于多种下游任务，如OCR、图像分类等，表现优秀。CLIP由文本编码器和图像编码器组成，使用余弦相似度评估匹配度，并采用大规模数据增强进行训练。在零样本推理中，CLIP结合prompt模板进行类别识别。文章提供了代码实战和相关资源链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CLIP文本图像自监督学习解读！

文章目录

一. 模型介绍
二. 代码实战
三. 参考文献

论文链接：https://arxiv.org/pdf/2103.00020.pdf

Github链接(官方)：https://github.com/openai/CLIP

Github链接(多语言)：https://github.com/FreddeFrallan/Multilingual-CLIP

李沐论文精度系列：李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI大模型前沿研究 感谢您的打赏，我会继续努力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。