ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相-369IT编程

admin管理员组
文章数量:1130349

本文由南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学合作完成，已被 ICLR 2025 会议接收。完整论文、数据和代码均已开源。

论文标题：

MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection

论文地址：

https://openreview/forum?id=JDiER86r8v

代码地址：

https://github/jam-cc/MMAD

Huggingface地址：

https://huggingface.co/datasets/jiang-cc/MMAD

引言：让 AI 为工业生产力注入新动能

近年来，随着深度学习技术的飞速发展，多模态大语言模型（MLLMs）在多个领域展现了卓越的能力。从生成高质量文本到处理复杂的数学推理，从棋类博弈到视频生成，这些模型不仅超越了人类的表现，还不断拓展着人工智能的应用边界。

然而，一个有趣的现象是，AI 的发展似乎率先在“高价值劳动”领域崭露头角，而在许多基础性、重复性的工作中却鲜有系统性探索。事实上，工业场景中的许多任务——例如异常检测——就属于这种基础但至关重要的工作。

想象一下，一个工厂质检员每天需要检查成千上万的产品，找出微小的缺陷或异常。这是一项既繁琐又要求极高的工作，通常依赖大量人力完成。如果能够用 AI 替代这种重复性强且耗时的任务，不仅可以显著提高效率，还能让人类员工专注于更具创造性和战略性的工作。

那么，当前最先进的多模态大模型是否已经具备这样的能力呢？为了回答这个问题，我们提出了 MMAD（MLLM benchmark in industrial Anomaly Detection）——首个针对工业异常检测的多模态大模型基准测试。

通过这项研究，我们发现了一些有趣的现象，探明了现有模型在工业异常检测中的表现，同时也揭示了这些模型在工业场景中的局限性。

传统检测方法为何在 AI 时代“水土不服”？

痛点1：死记硬背的“书呆子”

传统 AI 质检模型就像只会做模拟题的学生：

训练时见过 10 种划痕/物品 → 遇到第 11 种直接“懵圈”
产线调整产品型号 → 必须重新收集数据训练
只能输出“合格/不合格” → 无法解释缺陷成因

痛点2：信息传递的“聋哑症”

现有系统存在严重的信息断层：

而人类质检员的核心价值，正在于能完成"看到划痕 → 判断类型 → 推测工艺问题 → 指导产线调整"的完整认知链条。

而 MLLM 的通用性和灵活性，能够通过语言和视觉的结合，提供多维度的信息支持，进而帮助模型进行更准确的异常检测与判断，弥补传统检测方法在面对新产品或复杂缺陷时的局限性。这使得 MLLM 有潜力为工业异常检测带来新的工作方式和思维方式。

MMAD 基准：如何设计更贴近实际的测试？

与传统异常检测任务相比，AI 工业质检的特殊性在于，它不仅需要识别异常，还需要对缺陷进行分类、定位、分析，甚至推断其对产品的影响。这就像让一个质检员不仅要“看出”零件表面的划痕，还要判断划痕的严重程度、可能的成因，并给出解决方案。

为了全面评估 MLLMs 的工业质检能力，我们设计了覆盖 7 大核心子任务的测评体系：

异常判别（如“这张图是否有缺陷？”）
缺陷分类（如“缺陷类型是裂纹还是污渍？”）
缺陷定位（如“缺陷位于产品哪个区域？”）
缺陷描述（如“缺陷的颜色和形状如何？”）
缺陷分析（如“此缺陷会导致产品失效吗？”）
产品分类（如“这是哪个型号的工业零件？”）
产品分析（如“此零件的功能是什么？”）

▲ MMAD 的 7 大子任务示例

注：每个问题均为选择题形式，包含干扰项以测试模型抗干扰能力

此外，我们还采用了多种测试设置（如 1-shot、1-shot+ 等），以模拟真实工业环境中的不同场景。例如，在 1-shot+ 设置中，模型可以参考一张最相似的正常图片作为模板，从而让 MLLM 更好地理解正常样本应该有的状态。

数据构建：当GPT-4V化身“虚拟质检专家”

传统工业数据集仅有图像和类别标签，缺乏丰富的语义标注。为此，我们设计了一套创新的数据生成流程：

视觉提示增强：用红色标注异常区域，并提供正常图像作为对比模板
语义知识注入：结合产品类别、缺陷位置描述等先验知识
多轮问答生成：通过 GPT-4V 生成覆盖 7 个子任务的多样化问题
人工核验过滤：26 人团队耗时 200+ 小时确保数据可靠性

最终构建的 MMAD 数据集包含 8,366 张工业图像，涵盖 38 类产品和 244 种缺陷类型，生成 39,672 道多选问题，形成了工业领域最全面的 MLLM 能力测评基准。

▲（左）MMAD 数据集的数据信息，涵盖了 7 个关键子任务和 38 个代表性 IAD 类别。（右）性能雷达图，表现最好的 GPT-4o 也在异常相关的问题上与人类有较大差距。

实验结果：GPT-4o仅得74.9%，人类专家优势显著

我们对包括 GPT-4o、Gemini 1.5 系列、LLaVA-NeXT 等在内的十余个 SOTA 模型进行了系统评测，发现：

关键发现1：商业模型领先，但未达工业标准

GPT-4o 以 74.9% 平均准确率位居榜首，但在缺陷定位任务中仅 55.6%
开源模型 InternVL2-76B 以 70.8% 紧随其后，展现惊人潜力
专为工业设计的 AnomalyGPT 表现最差（36.5%），暴露过拟合问题

关键发现2：人类专家仍具压倒性优势

普通人类平均问答准确率 78.7%，专家级达 86.7%
在异常判别任务中，人类专家准确率 95.2%，远超 GPT-4o 的 68.63%

▲ 不同模型在各子任务上的表现对比

关键发现3：多图理解能力成短板

当提供检索后的正常图像作为参考模板时：

商业模型 Gemini 1.5 Flash 准确率提升 3.8%
多数开源模型反而出现性能下降，暴露多图对比能力不足

▲（左）随着模型尺度的增大，模型效果明显提升。（右）当前模型无法利用更多的参考样本来进一步提升性能。

提升策略：如何让MLLMs更“懂”工业？

尽管现有模型在 MMAD 基准测试中的表现不尽如人意，但我们发现了两种零训练增强方案，可以帮助模型更好地适应工业场景：

6.1 检索增强生成（RAG）

原理：构建工业知识库，实时检索相关领域知识注入提示词
效果：模型在大部分任务中平均准确率提升 5-6%，在瑕疵分类等任务中准确率最高提升 20%。

▲ RAG 对模型性能的提升效果

6.2 专家模型协作（Agent）

原理：将传统异常检测模型的输出（如热力图）可视化后输入 MLLM
发现：使用真实标注作为专家输入时，缺陷定位准确率提升 28%
局限：现有检测模型的误报会拖累 MLLM 表现

▲ 两种零训练增强方案

核心分析：MLLMs的“短板”与潜力

通过深入分析，我们发现了 MLLMs 难以胜任工业场景有以下几个主要原因：

1. 缺乏质检知识：MLLMs 在训练过程中很少接触到工业质检领域的专业知识，导致它们对特定产品的缺陷类型和异常模式理解不足。

2. 细粒度图像理解能力有限：工业异常检测通常需要模型能够精准定位缺陷位置并感知其特征，而现有模型在这方面的能力较弱。

3. 多图像比较能力不足：在实际生产线上，质检员经常需要通过对比多个图像来判断是否存在异常，但大多数 MLLMs 尚未经过相关训练。

但是，MLLMs 也在几个方面中展现出潜力：

1. 丰富的物品知识：MLLMs 如 GPT-4o 具备广泛的物品和行业知识，能迅速识别复杂物体并判断是否符合标准，特别在物体分类任务中表现优越。

2. 通过文本或视觉提示改进检测效果：通过适当的文本提示或参考图像，MLLMs 能够提升异常检测和分类的准确性，尤其在使用检索增强生成（RAG）和模板图像对比时，模型表现更好。

▲ 测评样例1：人类能够迅速识别缺陷，而模型则关注组件数量，容易出现错觉，特别在缺陷较小或物体复杂时。

▲ 测评样例2：GPT-4o 具有广泛的知识，能分析物体信息，而普通人可能无法识别某些专业细节，如 BAT+ 和 BAT-。

未来展望：工业AI质检的无限可能

尽管目前的 MLLMs 在工业异常检测中存在诸多不足，但我们的研究表明，它们仍然具有巨大的潜力。未来的研究可以从以下几个方向展开：

1. 大规模工业数据集的构建：为模型提供更多高质量的工业数据，帮助其学习特定领域的知识。

2. 多图像理解能力的提升：开发专门针对多图像输入的训练方法，增强模型的对比分析能力。

3. 跨模态知识融合：探索如何将文本、图像和其他模态的信息更好地结合起来，提高模型的综合推理能力。

总结

通过 MMAD 基准测试，我们首次系统地评估了多模态大模型在工业异常检测中的表现。虽然现有模型的表现尚不完美，但它们展现出的强大潜力令人期待。未来，随着更多研究的推进和技术的进步，相信多模态大模型将在工业场景中发挥更大的作用。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

本文由南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学合作完成，已被 ICLR 2025 会议接收。完整论文、数据和代码均已开源。

论文标题：

MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection

论文地址：

https://openreview/forum?id=JDiER86r8v

代码地址：

https://github/jam-cc/MMAD

Huggingface地址：

https://huggingface.co/datasets/jiang-cc/MMAD

引言：让 AI 为工业生产力注入新动能

通过这项研究，我们发现了一些有趣的现象，探明了现有模型在工业异常检测中的表现，同时也揭示了这些模型在工业场景中的局限性。

传统检测方法为何在 AI 时代“水土不服”？

痛点1：死记硬背的“书呆子”

传统 AI 质检模型就像只会做模拟题的学生：

训练时见过 10 种划痕/物品 → 遇到第 11 种直接“懵圈”
产线调整产品型号 → 必须重新收集数据训练
只能输出“合格/不合格” → 无法解释缺陷成因

痛点2：信息传递的“聋哑症”

现有系统存在严重的信息断层：

而人类质检员的核心价值，正在于能完成"看到划痕 → 判断类型 → 推测工艺问题 → 指导产线调整"的完整认知链条。

MMAD 基准：如何设计更贴近实际的测试？

为了全面评估 MLLMs 的工业质检能力，我们设计了覆盖 7 大核心子任务的测评体系：

异常判别（如“这张图是否有缺陷？”）
缺陷分类（如“缺陷类型是裂纹还是污渍？”）
缺陷定位（如“缺陷位于产品哪个区域？”）
缺陷描述（如“缺陷的颜色和形状如何？”）
缺陷分析（如“此缺陷会导致产品失效吗？”）
产品分类（如“这是哪个型号的工业零件？”）
产品分析（如“此零件的功能是什么？”）

▲ MMAD 的 7 大子任务示例

注：每个问题均为选择题形式，包含干扰项以测试模型抗干扰能力

数据构建：当GPT-4V化身“虚拟质检专家”

传统工业数据集仅有图像和类别标签，缺乏丰富的语义标注。为此，我们设计了一套创新的数据生成流程：

视觉提示增强：用红色标注异常区域，并提供正常图像作为对比模板
语义知识注入：结合产品类别、缺陷位置描述等先验知识
多轮问答生成：通过 GPT-4V 生成覆盖 7 个子任务的多样化问题
人工核验过滤：26 人团队耗时 200+ 小时确保数据可靠性

实验结果：GPT-4o仅得74.9%，人类专家优势显著

我们对包括 GPT-4o、Gemini 1.5 系列、LLaVA-NeXT 等在内的十余个 SOTA 模型进行了系统评测，发现：

关键发现1：商业模型领先，但未达工业标准

GPT-4o 以 74.9% 平均准确率位居榜首，但在缺陷定位任务中仅 55.6%
开源模型 InternVL2-76B 以 70.8% 紧随其后，展现惊人潜力
专为工业设计的 AnomalyGPT 表现最差（36.5%），暴露过拟合问题

关键发现2：人类专家仍具压倒性优势

普通人类平均问答准确率 78.7%，专家级达 86.7%
在异常判别任务中，人类专家准确率 95.2%，远超 GPT-4o 的 68.63%

▲ 不同模型在各子任务上的表现对比

关键发现3：多图理解能力成短板

当提供检索后的正常图像作为参考模板时：

商业模型 Gemini 1.5 Flash 准确率提升 3.8%
多数开源模型反而出现性能下降，暴露多图对比能力不足

▲（左）随着模型尺度的增大，模型效果明显提升。（右）当前模型无法利用更多的参考样本来进一步提升性能。

提升策略：如何让MLLMs更“懂”工业？

尽管现有模型在 MMAD 基准测试中的表现不尽如人意，但我们发现了两种零训练增强方案，可以帮助模型更好地适应工业场景：

6.1 检索增强生成（RAG）

原理：构建工业知识库，实时检索相关领域知识注入提示词
效果：模型在大部分任务中平均准确率提升 5-6%，在瑕疵分类等任务中准确率最高提升 20%。

▲ RAG 对模型性能的提升效果

6.2 专家模型协作（Agent）

原理：将传统异常检测模型的输出（如热力图）可视化后输入 MLLM
发现：使用真实标注作为专家输入时，缺陷定位准确率提升 28%
局限：现有检测模型的误报会拖累 MLLM 表现

▲ 两种零训练增强方案

核心分析：MLLMs的“短板”与潜力

通过深入分析，我们发现了 MLLMs 难以胜任工业场景有以下几个主要原因：

1. 缺乏质检知识：MLLMs 在训练过程中很少接触到工业质检领域的专业知识，导致它们对特定产品的缺陷类型和异常模式理解不足。

2. 细粒度图像理解能力有限：工业异常检测通常需要模型能够精准定位缺陷位置并感知其特征，而现有模型在这方面的能力较弱。

3. 多图像比较能力不足：在实际生产线上，质检员经常需要通过对比多个图像来判断是否存在异常，但大多数 MLLMs 尚未经过相关训练。

但是，MLLMs 也在几个方面中展现出潜力：

1. 丰富的物品知识：MLLMs 如 GPT-4o 具备广泛的物品和行业知识，能迅速识别复杂物体并判断是否符合标准，特别在物体分类任务中表现优越。

▲ 测评样例1：人类能够迅速识别缺陷，而模型则关注组件数量，容易出现错觉，特别在缺陷较小或物体复杂时。

▲ 测评样例2：GPT-4o 具有广泛的知识，能分析物体信息，而普通人可能无法识别某些专业细节，如 BAT+ 和 BAT-。

未来展望：工业AI质检的无限可能

尽管目前的 MLLMs 在工业异常检测中存在诸多不足，但我们的研究表明，它们仍然具有巨大的潜力。未来的研究可以从以下几个方向展开：

1. 大规模工业数据集的构建：为模型提供更多高质量的工业数据，帮助其学习特定领域的知识。

2. 多图像理解能力的提升：开发专门针对多图像输入的训练方法，增强模型的对比分析能力。

3. 跨模态知识融合：探索如何将文本、图像和其他模态的信息更好地结合起来，提高模型的综合推理能力。

总结

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

本文标签：基准真相模型多模异常

版权声明：本文标题：ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/jiaocheng/1758747669a2783671.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

ICLR 2025 | 多模态大模型能否胜任工业异常检测？MMAD基准揭示真相

引言：让 AI 为工业生产力注入新动能

传统检测方法为何在 AI 时代“水土不服”？

MMAD 基准：如何设计更贴近实际的测试？

数据构建：当GPT-4V化身“虚拟质检专家”

实验结果：GPT-4o仅得74.9%，人类专家优势显著

关键发现1：商业模型领先，但未达工业标准

关键发现2：人类专家仍具压倒性优势

关键发现3：多图理解能力成短板

提升策略：如何让MLLMs更“懂”工业？

6.1 检索增强生成（RAG）

6.2 专家模型协作（Agent）

核心分析：MLLMs的“短板”与潜力

未来展望：工业AI质检的无限可能

总结

引言：让 AI 为工业生产力注入新动能

传统检测方法为何在 AI 时代“水土不服”？

MMAD 基准：如何设计更贴近实际的测试？

数据构建：当GPT-4V化身“虚拟质检专家”

实验结果：GPT-4o仅得74.9%，人类专家优势显著

关键发现1：商业模型领先，但未达工业标准

关键发现2：人类专家仍具压倒性优势

关键发现3：多图理解能力成短板

提升策略：如何让MLLMs更“懂”工业？

6.1 检索增强生成（RAG）

6.2 专家模型协作（Agent）

核心分析：MLLMs的“短板”与潜力

未来展望：工业AI质检的无限可能

总结

更多相关文章

51c大模型~合集168

大模型提示词使用技巧

【AI大模型】Prompt Engineering 基础知识与挑战

开源模型应用落地-LangChain实用小技巧-ChatPromptTemplate的partial方法（一）

【大模型驯化-Prompt】企业级大模型Prompt调试技巧与batch批量调用方法

探索大模型能力--prompt工程

【使用大模型prompt辅助PPT制作】

提示搜狗输入法异常：删除 ~.configSogouPY并重新启动

黑群晖玩转AI：Deepseek大模型本地部署与远程调用打造专属AI助手

将AI大模型装进你的手机，你愿意么？

微软掀起生产力革命！GPT-4o 重塑 Windows，奥特曼新模型剧透登场

模型选择终极指南：Llama 2 7B Chat GGUF全量化方案深度测评

8G显存玩转多模态大模型：MiniCPM-Llama3-V 2.5-int4量化版深度评测

Qwen3-Next-80B-A3B：极致效率与超长上下文的混合注意力模型技术解析

最新版本TensorFlow训练模型TinyML部署到ESP32入门实操

2024版最新中国AI大模型平台排行榜（非常详细）零基础入门到精通，收藏这一篇就够了

不使用梯子下载huggingface模型——使用镜像下载

【免费下载】 王者荣耀3D模型资源下载介绍

无需电脑配置要求，本地免费调用deepseek-r1:8b及一下模型

在PC移动工作站上部署AI大模型：ThinkPad P15v Gen 3实战

发表评论

推荐文章

鸿蒙系统手机模拟器,鸿蒙系统2.0手机版

电脑桌面图标异常 计算机只显示C盘,电脑只有一个C盘怎么办？一招教你正确分区！...

【免费下载】 中文版AutoCAD 2018基础教程课件下载

星辰AI大模型一个解决你所有AI需求的智慧平台

千千纯净 Win10 LTSC 企业版 2024年12月版

热门文章

最新解决谷歌Gmail注册方法——谷歌（google）邮箱注册方法，亲身经历，不需要验证码

爱优腾芒视频会员平替软件合集

安全管家安卓_手机丢失后可能背负巨额债务，腾讯手机管家提醒注意手机安全防护 -...

ChatGPT 崩了，崩的很彻底！

搜狗输入法皮肤编辑器实战指南

ubuntu上踩的坑—安装搜狗输入法

【Docker】Windows将docker下载的镜像存放到其他盘

如何在 Windows 下使用 WSL 安装 Ubuntu 并配置国内镜像

【免费下载】 仿宋-GB2312字体下载

如何将笔记本改服务器？

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

提示搜狗输入法异常：删除　~.configSogouPY并重新启动

【免费下载】王者荣耀3D模型资源下载介绍

电脑桌面图标异常计算机只显示C盘,电脑只有一个C盘怎么办？一招教你正确分区！...

【免费下载】中文版AutoCAD 2018基础教程课件下载

【免费下载】仿宋-GB2312字体下载

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程