MMAD论文精读

最新推荐文章于 2025-08-15 16:20:39 发布

原创最新推荐文章于 2025-08-15 16:20:39 发布 · 838 阅读

CC 4.0 BY-SA版权

文章标签：

摘要：在工业检测领域，mllms的能力还没被系统性研究。mmad是一个面向工业异常检测的全谱系mllm基准评测框架。我们定义了mllms在工业检测中涉及的七个关键子任务，并设计了一个新颖的数据构建流程，生成了包含 8,366 张工业图像 和 39,672 个问题 的 MMAD 数据集。借助mmad，我们评测了多种mllms，其中gpt-40平均准确率74.9%。但这表现远未满足工业应用实际需求。我们的分析显示，当前mllms在回答与工业异常与缺陷相关的问题仍有较大提升空间。我们进一步探索了两种无需训练的性能增强策略，以帮助模型在工业场景下提升表现，显示出未来研究的巨大潜力。

引言：以往用于工业异常检测的自动视觉检测ai研究，通常依赖于传统的判别式深度学习模型。这类模型只能完成特定的训练检测任务，无法像质检员一样提供详细的检测报告，此外，一旦产线变更或需求调整，传统方法往往需要重新训练或开发，代价高。mllms为改变现状提供了可能，

核心问题：当前mllms在扮演工业质检员方面表现如何？

mmad涵盖7个关键子任务和38类典型工业对象。实验结果说明模型在物体相关的问题上表现良好，但在处理缺陷相关问题时表现不佳。近期有一些研究开始探索这一问题：通过指令微调机制，有研究利用mllm评估iad案例，但这些工作大多只在少量定型示例上测试，缺乏定量评估结果。另一些研究专门训练mllms去理解传统iad模型的输出，但采用的是传统模型输出评价标准，并不反映mllms本身的能力。同时它们使用的数据和输出格式也不统一，难以与通用模型公平对比。因此我们提出了第一个专门用于iad的mllm定量评测基准mmad，当前公开iad数据集仅包含视觉标注和类别标签，缺乏丰富语义注释，难以直接用于mllm评估。为此我们设计了一个完整流程：

1. 使用 GPT-4V 根据已有图像标注与人机对话生成丰富的语义注释；
2. 基于这些语义注释，生成问答对与选项，并由人工审核确保其准确性；
3. 最终我们从 4 个公开数据集中收集了 38 类工业产品的 8,366 个样本，生成了 39,672 道多选题，涵盖 7 大子任务（如图 1 左所示）。

考虑到现有模型在处理异常和缺陷方面的不足，我们探索了两种无需训练的性能增强方法：

RAG（检索增强生成）：通过文本扩展增强输入；
专家代理（Expert Agent）：通过视觉提示增强模型。

这些方法在一定程度上提升了性能，但仍受限于模型的基础能力。总体结论：当前的 MLLMs 仍无法胜任质检员的工作。它们还需进一步增强对 IAD 知识的理解能力，特别是跨图对比与细节分析的能力。

MMAD数据集

数据收集：我们设计的benchmark旨在覆盖多种IAD场景，我们从四个具有不同侧重点的IAD数据集进行采集和抽样，涵盖38个产品类别和244种缺陷类型。

问题定义：四个与异常相关的子任务和两个与物体相关的子任务：异常判别缺陷分类缺陷定位缺陷描述缺陷分析物体分类物体分析

数据生成：由于现有的开源IAD数据集缺乏语义标注，我们无法直接用于mllm评估，为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。该流程利用了gpt-4v的文本生成能力，结合规则程序、语言提示和人工筛选来确保生成内容的可靠性。在原图上用红色高亮显示真值掩码，让模型明确缺陷位置。检索最近的正常图像作为对比模板，使用结构相似性分数和Bhattacharyya距离的颜色直方图相似性度量。语言提示包括物体及缺陷类别标签和图像中缺陷位置的文字描述（采用九宫格描述）通过多种先验知识的组合，避免生成的描述仅仅是简单的照搬输入信息。

RAG：检索增强生成是一种结合了信息检索与文本生成的方法。用于提升语言模型的性能，尤其适用于需要外部知识的任务。本文提出了一个专门针对IAD任务的RAG方法，专家在大模型的辅助下，首先对现有的IAD数据集进行总结。对于每一个类别，他们总结了正常样本的特征，以及每种可能的异常的特征。把所有数据集中总结出来的领域知识，整合成一个可检索的数据库。在测试阶段，通过输入的查询图像去检索与该类别相关的知识，然后讲这些知识整合到文本提示（prompt）中。

------先写这些吧-------