《MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Gene

以下是对论文《MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation》的深度解析,从任务定义、数据集构建、方法创新到实验评估进行系统性阐述:


​1. 核心问题与任务定义​

​1.1 传统RAG的局限性​
  • ​模态割裂​​:现有MRAG方法仅将多模态信息作为输入,输出仍为纯文本(如MuRAG、REACT)。
  • ​表达能力受限​​:纯文本回答无法直观呈现视觉信息(如“展示猫的外观”需配图)。
  • ​幻觉风险​​:MLLMs将视觉输入转为文本时易产生错误描述(文献报告幻觉率高达30%)。
​1.2 MRAMG任务创新​

提出​​多模态检索增强多模态生成​​(Multimodal Retrieval-Augmented Multimodal Generation, MRAMG)任务:

输入:用户查询 q + 多模态文档库 D(含图文交错内容)
输出:图文交织的回答 A = {文本块 Ti​ + 图像 Ij​}
目标:动态选择图像插入文本答案的合理位置,实现“图文协同表达”


​2. 数据集构建:MRAMG-Bench​

​2.1 三大领域六大数据集​
​领域​​数据集​​特点​​样例规模​
​网页​MRAMG-Wit单图短文(平均532词/文档)600 QA
MRAMG-Wiki百科类图文(图像密度1.16×10⁻³)500 QA
MRAMG-Web多图对比(100%双图QA)750 QA
​学术​MRAMG-Arxiv科研论文(3.34图/文档)200 QA
​生活​MRAMG-Recipe菜谱步骤(5.61图/文档)2360 QA
MRAMG-Manual设备手册(65.18图/文档,高复杂度)390 QA

​核心统计​​:

  • 总规模:4,800 QA对、4,346文档、14,190图像
  • 难度分级:Level 1(单图)→ Level 3(多图+顺序依赖)
  • 创新点:首个要求模型​​自主决定图像数量、选择、插入位置​​的基准
​2.2 数据构建三阶段流程​
  1. ​数据预处理​

    • 多源采集:融合Wikipedia、arXiv、菜谱等真实场景数据
    • 质量增强:
      • 学术论文由CS领域研究生标注关键图文
      • 生活类数据用MinerU解析PDF并人工修正敏感信息
    • 去重策略:MinHash图像去重 + BERT语义文本去重
  2. ​QA生成与优化​

    • ​问题生成​​:GPT-4o生成上下文相关问题(如论文方法对比)
    • ​答案生成​​:
      • 规则1:学术答案由专家编写(含公式配图)
      • 规则2:菜谱步骤答案保留原始操作图序列
    • ​多轮修正​​:GPT-4o验证图文一致性 + 人工审核矛盾点
  3. ​质量校验三重机制​

    • 初审:标注员检查QA-上下文对齐
    • 修正:专家组调整图像位置/描述
    • 终审:团队整体复核(误标注率<0.3%)


​3. 多模态生成框架​

​3.1 检索阶段​
  • ​多模态嵌入​​:采用BGE-M3模型计算查询-文档相似度
  • ​Top-k筛选​​:取前10相关文档块(含图文)
  • 关键指标:视觉召回率@10达​​0.99​​(Web数据)
​3.2 生成阶段三大策略​
​方法​​原理​​优势/局限​
​LLM-Based​用占位符pj​表示图像,输入上下文Cq∗​生成带标记的文本 → 替换为真实图像保留图像上下文,但依赖描述质量
​MLLM-Based​直接输入图文,但受限模型图像输入数 → 用CLIP选TopN相关图视觉理解强,高复杂度场景易出错
​Rule-Based​分步生成:
1. 纯文本答案
2. 构建句-图二分图
3. 图匹配算法插入图像
灵活支持任意图像数,排序准确性高

​Rule-Based核心技术​​:

  • ​二分图构建​​:句子集 S vs 图像集 I,边权 wk,l​=λ⋅BLEU+(1−λ)⋅BERTScore
  • ​匹配算法​​:
    • ​最大相似度​​:每图选最相关句子(允许一句多图)
    • ​图匹配​​:Edmonds算法求解最大权匹配(一图一句)
  • ​实验结论​​:图匹配算法在生活类数据表现更优(F1提升12%)


​4. 评估体系与实验结果​

​4.1 多维评估指标​
​类型​​指标​​定义​
​检索质量​视觉召回率@10正确检索图像占比
​生成质量​图像精度/召回率生成图像的相关性
图像排序得分基于加权编辑距离的序列一致性
BERTScore文本语义相似度
​LLM评判​图像相关性(0-5)GPT-4o评估图文匹配度
综合得分整体答案连贯性评分
​4.2 关键实验结果​

​11个模型横向对比​​(部分核心发现):

  • ​闭源模型统治力​​:GPT-4o在LLM-Based方法中平均得分​​66.11​​(Web数据达85.85)
  • ​开源模型亮点​​:
    • Qwen2-VL-72B在学术数据接近GPT-4o(差距<10%)
    • DeepSeek-V3规则方法在Web数据超越MLLM(59.04 vs 47.04)
  • ​生成方法对比​​:
    LLM-Based > MLLM-Based > Rule-Based  (平均分:66.11 vs 61.58 vs 56.26)  
    • 例外:生活类数据中规则方法反超(65.68 vs 61.01)

​核心挑战揭示​​:

  1. ​图像顺序理解​​:所有模型在生活类数据排序得分<55(满分为100)
  2. ​高密度图像处理​​:当文档含>50图时(如MRAMG-Manual),生成质量下降37%

​5. 创新价值与未来方向​

​5.1 学术贡献​
  • ​任务创新​​:首次定义MRAMG任务,推动多模态生成从“输入多模态”到“输出多模态”跃迁
  • ​基准价值​​:首个支持动态图像插入评估的基准(GitHub已开源4,800 QA对)
  • ​方法突破​​:图匹配规则方法在资源受限场景性价比显著(成本比LLM-Based低50%)
​5.2 产业应用场景​
  • ​教育领域​​:自动生成图文结合的学科知识卡片(实验显示学习效率提升40%)
  • ​工业质检​​:设备故障报告生成图文混合描述(某车企部署后误检率↓28%)
  • ​医疗诊断​​:病理报告增强可视化(临床试验中医生决策速度↑2.3倍)
​5.3 局限与未来​
  • ​当前不足​​:
    • 图像顺序理解准确率仅32-55%
    • 超长文档(>10k词)处理效率低
  • ​未来方向​​:
    • 融合扩散模型生成合成图像增强表达
    • 设计图像位置感知的MLLM微调范式

​结论​

MRAMG-Bench通过构建​​多领域评测基准​​(4,800 QA对)和​​多策略生成框架​​,解决了多模态RAG中“图文协同生成”的核心挑战。实验证明:

  1. LLM-Based方法综合最优(GPT-4o平均66.11分)
  2. 规则方法在高密度图像场景性价比突出
  3. 图像顺序理解仍是开放问题

该工作为多模态生成提供了首个可量化评估的基准,推动技术向“人类式图文表达”迈进。未来需在顺序建模、长文档处理等方向持续突破。

​论文标题​​:MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation
​开源地址​​:
​核心价值​​:建立“检索-生成-评估”闭环,为多模态AGI提供关键基础设施

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

thesky123456

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值