多模态大模型的视觉基础研究——从CLIP到SEAL

本文链接：https://blog.csdn.net/weixin_41496173/article/details/139935158

随着各种大模型技术的井喷，多模态、计算机视觉领域的相关研究迈入了一个新的时代。GPT-4V等强力的多模态模型的出现，使得一些传统计算机视觉难以解决的问题得以解决。6月15日，在智源大会的“多模态大模型”论坛上，纽约大学助理教授谢赛宁从哲学的角度分享了针对大语言时代的视觉表征研究。他和团队的两篇最新研究论文，分别探讨了多模态大型语言模型的视觉缺陷以及基于视觉搜索引导的多模态大模型。本文将详细介绍这些研究成果，并探讨它们的实际应用。

在这里插入图片描述

探索多模态大语言模型的视觉缺陷

CLIP的现状和挑战

谢赛宁的第一篇论文《大开眼界？探索多模态大语言模型的视觉缺陷》（Eyes Wide Shut？ Exploring the Visual Shortcomings of Multimodal LLMs）专注于探索多模态大语言模型中存在的缺陷。CLIP是OpenAI在2021年发布的一种多模态视觉和语言模型，可以实现图像文本相似性和零样本图像分类。然而，在多模态技术井喷的当下，三年前的CLIP现在还够用吗？对于语言理解来说，现有的视觉表征学习系统足够好吗？

为了搞清楚这一点，谢赛宁和他的团队系统性地收集了GPT-4V的失败案例，并通过“CLIP-blind Pairs”方法构建了一个新的名为“MMVP”的对比基准。他们首先从现有的数据集（如ImageNet、LAION）中找出一些成对的图像，并在CLIP和通过自监督方式训练的纯视觉模型的特征空间中度量图像对的嵌入距离。通过这样的方式，团队构建了一个针对视觉表征学习系统的“考卷”，可以利用它来评价各种多模态大语言模型。