MMAD论文精读

摘要:在工业检测领域,mllms的能力还没被系统性研究。mmad是一个面向工业异常检测的全谱系mllm基准评测框架。我们定义了mllms在工业检测中涉及的七个关键子任务,并设计了一个新颖的数据构建流程,生成了包含 8,366 张工业图像 和 39,672 个问题 的 MMAD 数据集。借助mmad,我们评测了多种mllms,其中gpt-40平均准确率74.9%。但这表现远未满足工业应用实际需求。我们的分析显示,当前mllms在回答与工业异常与缺陷相关的问题仍有较大提升空间。我们进一步探索了两种无需训练的性能增强策略,以帮助模型在工业场景下提升表现,显示出未来研究的巨大潜力。

引言:以往用于工业异常检测的自动视觉检测ai研究,通常依赖于传统的判别式深度学习模型。这类模型只能完成特定的训练检测任务,无法像质检员一样提供详细的检测报告,此外,一旦产线变更或需求调整,传统方法往往需要重新训练或开发,代价高。mllms为改变现状提供了可能,

核心问题:当前mllms在扮演工业质检员方面表现如何?

mmad涵盖7个关键子任务和38类典型工业对象。实验结果说明模型在物体相关的问题上表现良好,但在处理缺陷相关问题时表现不佳。近期有一些研究开始探索这一问题:通过指令微调机制,有研究利用mllm评估iad案例,但这些工作大多只在少量定型示例上测试,缺乏定量评估结果。另一些研究专门训练mllms去理解传统iad模型的输出,但采用的是传统模型输出评价标准,并不反映mllms本身的能力。同时它们使用的数据和输出格式也不统一,难以与通用模型公平对比。因此我们提出了第一个专门用于iad的mllm定量评测基准mmad,当前公开iad数据集仅包含视觉标注和类别标签,缺乏丰富语义注释,难以直接用于mllm评估。为此我们设计了一个完整流程:

  • 1. 使用 GPT-4V 根据已有图像标注与人机对话生成丰富的语义注释

  • 2. 基于这些语义注释,生成问答对与选项,并由人工审核确保其准确性;

  • 3. 最终我们从 4 个公开数据集中收集了 38 类工业产品的 8,366 个样本,生成了 39,672 道多选题,涵盖 7 大子任务(如图 1 左所示)。

考虑到现有模型在处理异常和缺陷方面的不足,我们探索了两种无需训练的性能增强方法:

  • RAG(检索增强生成):通过文本扩展增强输入;

  • 专家代理(Expert Agent):通过视觉提示增强模型。

这些方法在一定程度上提升了性能,但仍受限于模型的基础能力。总体结论:当前的 MLLMs 仍无法胜任质检员的工作。它们还需进一步增强对 IAD 知识的理解能力,特别是跨图对比与细节分析的能力。

MMAD数据集

数据收集:我们设计的benchmark旨在覆盖多种IAD场景,我们从四个具有不同侧重点的IAD数据集进行采集和抽样,涵盖38个产品类别和244种缺陷类型。

问题定义:四个与异常相关的子任务和两个与物体相关的子任务:异常判别 缺陷分类 缺陷定位 缺陷描述 缺陷分析 物体分类 物体分析

数据生成:由于现有的开源IAD数据集缺乏语义标注,我们无法直接用于mllm评估,为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。该流程利用了gpt-4v的文本生成能力,结合规则程序、语言提示和人工筛选来确保生成内容的可靠性。在原图上用红色高亮显示真值掩码,让模型明确缺陷位置。检索最近的正常图像作为对比模板,使用结构相似性分数和Bhattacharyya距离的颜色直方图相似性度量。语言提示包括物体及缺陷类别标签和图像中缺陷位置的文字描述(采用九宫格描述)通过多种先验知识的组合,避免生成的描述仅仅是简单的照搬输入信息。

RAG:检索增强生成是一种结合了信息检索与文本生成的方法。用于提升语言模型的性能,尤其适用于需要外部知识的任务。本文提出了一个专门针对IAD任务的RAG方法,专家在大模型的辅助下,首先对现有的IAD数据集进行总结。对于每一个类别,他们总结了正常样本的特征,以及每种可能的异常的特征。把所有数据集中总结出来的领域知识,整合成一个可检索的数据库。在测试阶段,通过输入的查询图像去检索与该类别相关的知识,然后讲这些知识整合到文本提示(prompt)中。

------先写这些吧-------

### 论文精读与实验复现的方法 #### 方法概述 论文精读和实验复现是深入理解研究工作的重要手段。在IT领域,这种方法不仅有助于掌握技术细节,还能培养批判性思维能力以及实际动手能力。以下是针对论文精读和实验复现的具体方法。 --- #### 一、论文精读的核心步骤 1. **快速浏览全文** 阅读摘要、引言和结论部分,了解论文的研究背景、主要贡献和技术框架[^1]。这一步的目标是形成对整篇论文的大致印象。 2. **逐节细读** 对于任务规划模块或其他核心章节,仔细阅读其理论推导、算法设计和实验设置等内容。注意作者提到的局限性和未来工作的方向[^1]。如果发现某些方面未被充分讨论(如参数影响或任务依赖关系),可以记录下来作为后续探索的方向。 3. **绘制结构图** 使用流程图或者概念地图的方式整理出论文的技术路线及其组成部分之间的逻辑联系[^2]。这种可视化工具能够帮助记忆复杂的信息流,并便于与其他相关工作对比分析。 4. **质疑与思考** 提问自己几个关键问题:为什么选择了特定的方法?是否存在其他可能更优的选择?数据集选取是否合理?评价指标是否有偏倚等问题[^3]? --- #### 二、实验复现的关键环节 1. **环境搭建** 根据论文描述准备所需的软件库版本号、硬件配置需求等基础条件。很多时候官方开源代码附带详细的安装指南可以帮助加速此阶段进程[^2]。 2. **重现基线结果** 尝试按照文中提供的超参设定运行原始模型得到接近原作报告数值的表现水平。这是验证个人实现正确性的第一步也是最重要的一步[^1]。 3. **修改与优化** 基于自己的理解和前期提出的疑问尝试调整网络架构、损失函数定义甚至整个训练策略等方面的内容看能否进一步提升性能表现或是解决之前指出的一些不足之处例如增加对于不同类型输入适应性强弱测试等等[^3]。 4. **撰写总结文档** 不仅要记录下成功再现的结果也要包括失败案例的原因剖析这样既有利于自我反思也方便日后查阅参考资料时迅速定位重要知识点[^2]. --- #### 示例代码片段展示如何加载预训练权重文件(以PyTorch为例) ```python import torch def load_pretrained_weights(model, path_to_checkpoint): checkpoint = torch.load(path_to_checkpoint) model.load_state_dict(checkpoint['model']) epoch = checkpoint.get('epoch', None) loss = checkpoint.get('loss', None) return model, epoch, loss ``` 上述代码展示了怎样从磁盘上的checkpoint恢复先前保存的状态以便继续训练或者是直接用于推理模式下的预测操作[^2]. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值