论文题目:CLIP-Event: Connecting Text and Images with Event Structures(CLIP-Event:用事件结构连接文本和图像)
会议:CVPR2022
摘要:视觉语言(V+L)预训练模型通过理解图像和文本之间的对齐,在支持多媒体应用方面取得了巨大的成功。虽然现有的视觉语言预训练模型主要关注于理解图像中的对象或文本中的实体,但它们往往忽略了事件及其参数结构层面的对齐。在这项工作中,我们提出了一个对比学习框架来执行视觉语言预训练模型来理解事件和相关的论点(参与者)角色。为了实现这一目标,我们利用文本信息提取技术获取事件结构知识,并利用多个提示函数通过操纵事件结构来对比困难的否定描述。我们还设计了一个基于最优传输的事件图对齐损失来捕获事件参数结构。此外,我们收集了一个大型事件丰富的数据集(106,875张图像)进行预训练,这为评估对复杂长句的理解提供了更具挑战性的图像检索基准1。实验表明,我们的零样本学习CLIP-Event在多媒体事件提取的论点提取中优于最先进的监督模型,在事件提取中获得了超过5%的绝对f分增益,并且在零样本学习设置下的各种下游任务上都有显着改进。
在人工智能快速发展的今天,让机器像人类一样理解图像和文本的关系一直是一个核心挑战。虽然CLIP等视觉-语言预训练模型在这方面取得了显著进展,但它们在理解图像中的事件和动作方面仍存在明显缺陷。
问题:现有模型"只见树木,不见森林"
想象这样一个场景:两张新闻图片都显示抗议者和警察,都涉及"攻击"事件。但在第一张图中,抗议者是攻击者,警察是受害者;在第二张图中,角色正好相反。对人类来说,这种区别显而易见,但对现有的AI模型却是一个巨大挑战。
这暴露了当前视觉-语言模型的根本问题:
- 重对象轻事件:模型能识别图像中的"人"、"车"等对象,却难以理解"攻击"、"运输"等事件
- 缺乏结构理解:无法理解事件中不同参与者的角色关系
- 动词理解薄弱:在需要理解动作和行为的任务中表现不佳
创新解决方案:事件结构驱动的学习
1. 事件知识的自动提取
研究团队首先解决了事件知识获取的问题。他们使用先进的文本信息抽取技术,从新闻标题中自动提取:
- 事件类型:如"Transport"、"Attack"等
- 论元角色:如"Agent"(施动者)、"Entity"(受动者)、"Instrument"(工具)等
- 参与实体:如"抗议者"、"受伤男子"、"担架"等
2. 巧妙的负样本生成策略
为了让模型学会精确区分不同的事件和角色,研究者设计了两种负样本生成方法:
负事件采样:基于混淆矩阵找到视觉上相似但语义不同的事件。比如"Transport"和"Arrest"在视觉上可能很相似(都可能涉及人群聚集),但事件性质完全不同。
负论元采样:通过"右旋转"论元角色序列来生成错误的角色分配。比如将"抗议者-Agent,受伤男子-Entity,担架-Instrument"变成"担架-Agent,抗议者-Entity,受伤男子-Instrument"。
3. 多样化的提示函数
团队设计了5种不同的提示函数来将事件结构转换为自然语言描述:
- 单模板提示:用一个句子描述整个事件
- 组合模板提示:为每个论元单独造句
- 连续提示:使用可学习的token
- 标题编辑:直接修改原始标题
- GPT-3提示:生成最自然的描述
4. 基于最优传输的事件图对齐
这是论文的一个重要技术创新。研究者将事件表示为图结构:
- 中心节点代表事件类型
- 周围节点代表参与实体
- 边代表论元角色关系
然后使用最优传输算法在文本事件图和视觉事件图之间建立全局最优对齐。这确保了具有相似视觉特征的对象倾向于对齐到相同的论元角色。
令人印象深刻的实验结果
零样本性能的显著提升
在多媒体事件抽取任务上,CLIP-Event相比原始CLIP实现了:
- 事件抽取F1分数绝对提升5.5%
- 论元抽取相对提升33.3%
更令人惊讶的是,零样本的CLIP-Event在论元抽取上甚至超过了有监督训练的最先进模型!
全面的下游任务提升
模型在多个任务上都展现出了一致的改进:
- 图像检索:在复杂的VOANews数据集上表现尤其突出
- 视觉常识推理:在需要理解场景细节的推理任务上提升明显
- 时间推理:在VisualCOMET任务上超过了基于困惑度的最先进模型
消融研究的洞察
实验还揭示了几个重要发现:
- 移除最优传输对齐会显著降低性能,证明了事件图对齐的重要性
- GPT-3生成的提示效果最好,显示了自然语言描述的价值
- 在新闻数据上的预训练收益被事件结构知识显著放大
技术意义与应用前景
这项工作的意义远不止于提升几个百分点的性能指标:
理论贡献
- 首次将事件结构知识系统性地引入视觉-语言预训练
- 提出了完整的事件驱动的对比学习框架
- 展示了如何利用文本IE技术来增强视觉理解
实际应用
- 新闻分析:能更准确地理解新闻图片中的事件和参与者角色
- 视频理解:为理解动态事件序列奠定基础
- 多模态问答:在需要事件推理的问答系统中有巨大潜力
未来展望
论文作者在结论中提到,未来将把这种能力扩展到视频领域,通过论元跟踪来理解事件的演化。这为构建真正理解动态世界的AI系统开辟了新的道路。
CLIP-Event不仅是一个技术创新,更代表了AI理解世界方式的一次重要转变:从静态的对象识别向动态的事件理解迈进。在这个信息爆炸的时代,让机器真正"看懂"图像背后的故事,无疑具有深远的意义。
这项工作提醒我们,真正的视觉智能不仅要识别"是什么",更要理解"发生了什么"以及"谁对谁做了什么"。CLIP-Event在这个方向上迈出了坚实的一步,为构建更智能的多模态AI系统铺平了道路。