随着各种大模型技术的井喷,多模态、计算机视觉领域的相关研究迈入了一个新的时代。GPT-4V等强力的多模态模型的出现,使得一些传统计算机视觉难以解决的问题得以解决。6月15日,在智源大会的“多模态大模型”论坛上,纽约大学助理教授谢赛宁从哲学的角度分享了针对大语言时代的视觉表征研究。他和团队的两篇最新研究论文,分别探讨了多模态大型语言模型的视觉缺陷以及基于视觉搜索引导的多模态大模型。本文将详细介绍这些研究成果,并探讨它们的实际应用。
探索多模态大语言模型的视觉缺陷
CLIP的现状和挑战
谢赛宁的第一篇论文《大开眼界?探索多模态大语言模型的视觉缺陷》(Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs)专注于探索多模态大语言模型中存在的缺陷。CLIP是OpenAI在2021年发布的一种多模态视觉和语言模型,可以实现图像文本相似性和零样本图像分类。然而,在多模态技术井喷的当下,三年前的CLIP现在还够用吗?对于语言理解来说,现有的视觉表征学习系统足够好吗?
为了搞清楚这一点,谢赛宁和他的团队系统性地收集了GPT-4V的失败案例,并通过“CLIP-blind Pairs”方法构建了一个新的名为“MMVP”的对比基准。他们首先从现有的数据集(如ImageNet、LAION)中找出一些成对的图像,并在CLIP和通过自监督方式训练的纯视觉模型的特征空间中度量图像对的嵌入距离。通过这样的方式,团队构建了一个针对视觉表征学习系统的“考卷”,可以利用它来评价各种多模态大语言模型。
结果与发现
研究结果显示,人类在视觉差异识别上的得分遥遥领先于任何大模型,证明现有的多模态大模型在视觉理解上还有很大的提升空间。为了进一步理解这些差异,研究团队总结了多模态系统在视觉方面的九类典型