Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
创新点
我们假设相同的信息可以通过多种媒体传达。例如,一只奔跑的狗可以同时通过语言、图像或视频来表达。因此,我们可以将来自不同模态的信息压缩到一个公共特征空间中,使模型能够从密集的特征空间中提取信息,促进模态间的交互和互补
Video-LLaVA 首先将图像和视频的表征对齐到一个统一的视觉特征空间
LLaVA 将视觉信号绑定到语言特征空间,统一了视觉表征,并提出了投影前对齐的解决方案
采用图像和视频的联合训练策略,在同一批次中同时包含图像和视频样本进行动态训练。这种训练方式充分利用了图像和视频数据之间的互补性,促进了 LLM 对统一视觉表征的学习,进一步提升了模型在视觉语言理解任务中的性能,在多个图像和视频基准测试中取得优异成绩
方法
首先使用 LanguageBind((Zhu 等人,2023a)) 的模态编码器获取视觉特征。LanguageBind 编码器能够将不同模态映射到文本特征空间,从而为我们提供统一的视觉表示。随后,统一的视觉表示由共享投影层进行编码,然后与分词后的文本查询相结合,并输入到大型语言模型中以生成相应的响应
投影前对齐
使用来自 VIDAL-10M(Zhu 等人,2023a)的 300 万个视频 - 文本对将视频表示对齐到语言空间
统一的视觉表示在通过共享投影层后被输入到大型语言模型中
训练与微调
模型的训练分为两个阶段:视觉理解和指令微调。在视觉理解阶段,模型通过大规模的视觉-文本对数据集学习解读视觉信号,使用了一个558K个LAION-CC-SBU图像-文本对。视频-文本对是从Valley 提供的子集中获得的,总共有703k对,这些视频源自WebVid。。
指令微调阶段则侧重于根据复杂指令生成相应的回复,从两个来源收集了指导性数据集,包括来自LLaVA的665k个图像-文本数据集,以及从Video-ChatGPT获得的包含100k个视频-文本数据集,进一步提升模型的理解和交互能力。