心爱心爱-CSDN博客

原创 CSPNet: A New Backbone that can Enhance Learning Capability of CNN （CSP模块）

本文提出跨阶段局部网络(CSPNet)以解决传统卷积神经网络(如DenseNet)中梯度信息重复利用导致的计算冗余问题。通过将输入特征在通道维度分割为两部分，分别进行直接连接和密集块处理，并设计局部过渡层进行梯度流截断和特征融合，有效减少了50%的内存流量和计算量。实验表明，该方法在保持DenseNet特征复用优势的同时，仅牺牲0.1%的分类准确率就显著提升了计算效率。两种融合策略对比显示，后融合方式通过截断梯度流，能更有效地避免重复学习冗余信息。

2025-07-09 17:08:23 735

原创 DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 论文精读

本文提出了一种新颖的3D工业异常检测方法DAS3D，通过双模态异常合成和增强判别网络提升检测性能。针对3D异常数据收集困难的问题，该方法创新性地结合深度和RGB模态，通过数学操作合成物理意义合理的3D异常样本。在此基础上，构建了一个端到端的判别网络，包含重构子网络和双模态判别器，并引入增强丢弃机制优化模态融合。实验表明，该方法在MVTec 3D-AD和Eyescandies数据集上实现了最先进的检测精度（AUROC分别达0.982和0.915），且生成的异常图边界更清晰。该方法为3D工业检测提供了高效的异常

2025-07-09 17:01:06 1050

原创 BACK TO THE FEATURE: CLASSICAL 3D FEATURES ARE (ALMOST) ALL YOU NEED FOR 3D ANOMALY DETECTION 论文精读

首先，我们有一个惊人的发现：标准的仅基于颜色的方法，在性能上超过了所有当前专为利用三维信息而设计的方法。这看似有悖直觉，因为即便对该数据集进行简单检查，也会发现仅基于颜色的方法，难以处理包含几何异常的图像。这就引出了一个问题：异常检测方法如何才能有效利用三维信息？我们研究了一系列形状表示方法，包括手工设计的和基于深度学习的，发现旋转不变性对性能起着主导作用。我们发现了一种简单的仅基于三维的方法，在不使用深度学习、外部预训练数据集或颜色信息的情况下，胜过所有近期的方法。BTF

2025-06-11 21:20:56 901

原创 Look Inside for More: Internal Spatial Modality Perception for 3D Anomaly Detection 论文精读

具体而言，我们提出的ISMP包含一个关键的感知模块 —— Proposal Insight Engine（SIE），它可将点云的复杂内部信息抽象为关键全局特征。此外，为了更好地使结构信息与点云数据对齐，我们提出一种增强的关键点特征提取模块，用于放大空间特征表示。同时，融入一种新颖的特征过滤模块，以减少噪声和冗余特征，从而进一步对齐精确的空间结构。

2025-06-10 00:21:59 632

原创 Look Inside for More: Internal Spatial Modality Perception for 3D Anomaly Detection 代码块后续慢慢补

ISMP的核心四个视角特征图的一部分后面会补全部的

2025-06-09 22:49:44 123

原创 CVPR 2025 所有名字里带3D的论文：1-374 （存档，后续整理）

ArcPro：稀疏点结构化3D抽象的建筑程序（从激光雷达稀疏点云生成建筑结构的参数化模型）

2025-06-06 22:37:08 817

原创 Multi-Sensor Object Anomaly Detection:Unifying Appearance, Geometry, and Internal Properties 论文精读

工业质量检测中，目标异常检测至关重要，但传统单传感器方法因受限于外观、几何结构或内部属性检测，存在关键局限。为克服挑战，本文引入MulSen - AD数据集，它整合RGB相机、激光扫描仪和锁相红外热成像数据，覆盖15种工业产品及多样真实异常，还提出MulSen - AD Bench基准与MulSen - TripleAD决策级融合算法。实验表明，多传感器融合大幅优于单传感器，目标级检测AUROC达96.1% ，凸显多传感器数据整合对工业异常检测的重要性，数据集和代码可在指定GitHub获取。

2025-06-06 20:16:39 754

原创 Real-IAD D³: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection 论文精读

为应对这些挑战，我们引入了真实工业异常检测数据集D³，这是一个高精度的多模态数据集。它独特地纳入了通过光度立体技术生成的额外伪三维模态，同时包含高分辨率RGB图像和微米级三维点云。真实工业异常检测数据集D³在20个类别中呈现出更细微的缺陷、多样的异常情况以及更大的规模，为多模态工业异常检测提供了具有挑战性的基准。

2025-06-04 23:18:07 916

原创 Attention Is All You Need 论文精读

主流的序列转导模型基于复杂的递归或卷积神经网络，包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种全新且简单的网络架构——Transformer，它完全基于注意力机制，彻底摒弃了循环和卷积。在两项机器翻译任务上的实验表明，这些模型在质量上更胜一筹，同时具备出色的并行性，训练耗时也大幅减少。在WMT 2014 英德翻译任务中，我们的模型达到了28.4的BLEU值，超越了包括集成模型在内的现有最优结果，BLEU值提高了2个点。

2025-05-29 17:26:57 806

原创 Masked Autoencoders for Point Cloud Self-supervised Learning 论文精读

本文提出了一种简洁高效的点云自监督学习掩码自编码器方案Point-MAE。该方法通过将输入点云划分为不规则点块并进行高比例随机掩码，基于标准Transformer构建非对称自编码器（编码器仅处理未掩码点块，轻量级解码器重建掩码部分），有效解决了点云掩码自编码中的关键挑战：骨干网络架构统一问题、位置信息过早泄露问题以及信息密度不均匀问题。实验表明，Point-MAE在ScanObjectNN和ModelNet40上分别达到85.18%和94.04%的分类准确率，超越所有自监督学习方法，甚至优于专门设计的监督学

2025-05-27 21:56:35 1214

原创 Towards High-resolution 3D Anomaly Detection via Group-Level Feature Contrastive Learning 论文精读

本文提出了一种基于组级特征对比学习的高分辨率三维异常检测方法Group3AD。针对高分辨率点云异常检测面临的三大挑战：数据量大导致信息捕捉困难、特征表示各向异性以及异常区域比例小难以刻画，本文设计了簇间一致性网络(IUN)和簇内对齐网络(IAN)来优化特征空间分布，并提出基于几何信息的自适应组中心选择(AGCS)方法提升异常区域检测敏感性。实验表明，Group3AD在Real3D-AD数据集上对象级AUROC指标比Reg3D-AD提高5%，有效提升了高分辨率三维异常检测的性能。该方法可直接应用于各种网络架构

2025-05-26 17:11:34 885

原创 PO3AD: Predicting Point Offsets toward Better 3D Point Cloud Anomaly Detection 论文精读

本文提出了一种新颖的PO3AD框架，用于三维点云异常检测。该方法通过预测伪异常样本中的点偏移量，使模型能够专注于信息丰富的伪异常区域，从而更有效地学习正常数据表示。与现有基于重建的方法不同，PO3AD仅需估计正常点的偏移量大小，同时预测伪异常点的偏移量大小和方向，避免了对正常点和伪异常点赋予相同权重导致的问题。此外，作者设计了一种法向量引导的异常模拟方法Norm-AS，用于生成更真实的伪异常样本。在Anomaly-ShapeNet和Real3D-AD数据集上的实验表明，PO3AD显著优于现有方法，检测AUC

2025-05-25 17:19:18 642

原创 CVPR 2025 名字里带 Anomaly 的论文合集（未发布的论文后续会更新）

CVPR 2025 名字里带 Anomaly 的论文合集（未发布的论文后续会更新）异常检测+二维+三维+多模态+视频+新数据集

2025-05-24 18:38:19 1118

原创 Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection 论文精读

本研究提出了一种名为互补伪多模态特征（CPMF）的方法，用于提升点云异常检测的性能。CPMF通过结合手工制作的点云描述符和预训练的二维神经网络，分别捕捉点云的局部几何信息和全局语义信息。具体而言，CPMF将原始点云投影为多视图图像，利用预训练二维神经网络提取语义特征，并将其与三维模态特征聚合，形成互补的多模态特征。实验结果表明，CPMF在MVTec3D基准测试中取得了显著的成绩，证明了其在点云异常检测中的有效性。代码已开源，供进一步研究和应用。

2025-05-21 19:13:19 1109

原创 ECCV 2024 名字里带 Anomaly 的论文合集

ECCV 2024 名字里带 Anomaly 的论文合集视频异常检测二维异常检测三维异常检测多模态异常检测异常合成医学图像异常检测

2025-05-20 18:22:40 1360

原创 CVPR 2024 名字里带 Anomaly 的论文合集

CVPR 2024 名字里带 Anomaly 的论文合集:视频异常检测+二维+三维+多模态

2025-05-18 21:59:08 876

原创 Real3D-AD: A Dataset of Point Cloud Anomaly Detection 论文精读

高精度点云异常检测是识别先进机械加工和精密制造缺陷的黄金标准。尽管该领域在方法上取得了一些进展，但数据集的稀缺以及缺乏系统的基准阻碍了其发展。我们引入Real3D - AD，这是一个具有挑战性的高精度点云异常检测数据集，旨在解决该领域的局限性。Real3D - AD包含1254个高分辨率三维对象（每个对象包含4万到数百万个点），是目前最大的高精度三维工业异常检测数据集。全视角点云

2025-05-18 00:45:23 1300

原创 The Eyecandies Dataset for Unsupervised Multimodal Anomaly Detection and Localization 论文精读

Eyecandies 是一个用于无监督多模态异常检测与定位的新型合成数据集，旨在模拟工业视觉检测场景。该数据集包含在多种光照条件下渲染的程序生成糖果的逼真图像，同时提供深度图和法向图。数据集包含十种糖果，呈现出复杂纹理、自遮挡和高光等挑战，并通过随机绘制程序渲染流水线的关键参数实现大量类内变化。异常样本通过自动生成像素级标注，克服了人为偏差和不一致性。Eyecandies 数据集鼓励探索结合颜色、深度和法向图的异常检测方法，并展示了利用额外信息可以提高检测性能。该数据集为无监督异常检测提供了一个新的、具有挑

2025-05-15 21:56:54 853

原创 The MVTec 3D-AD Dataset for Unsupervised 3D Anomaly Detection and Localization 论文精读

MVTec 3D-AD数据集是首个专为无监督三维异常检测与定位任务设计的综合性数据集，旨在模拟现实工业检测场景。该数据集包含10种不同物体类别的高分辨率三维扫描数据，训练集和验证集仅包含无异常样本，而测试集则包含各种类型的缺陷样本，如划痕、凹痕、孔洞等，并为每个异常提供了精确的真实标注。数据集的引入填补了三维异常检测领域的数据空白，初步基准测试显示现有方法在该数据集上表现不佳，表明未来仍有较大改进空间。该数据集有望推动三维计算机视觉领域的新方法开发，特别是在工业检测等实际应用中。

2025-05-14 15:29:42 798

原创 Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective 论文精读

项工作考虑了模块内融合层面的多模态融合架构设计，即==独立的模态特定模块==（涉及早期、中期或晚期多模态特征与特定融合操作），以及==模块间融合层面==（即融合这些模块的策略）。在这两种情况下，我们首先通过理论和实验探索架构设计的影响。然后，我们扩展了当前最优的神经架构搜索（NAS）范式，提出3D - ADNAS，以==同时搜索多模态融合策略和模态特定模块==。

2025-05-11 15:19:05 801

原创 Multimodal Industrial Anomaly Detection via Hybrid Fusion 论文精读

基于二维的工业异常检测已被广泛探讨，然而，基于三维点云和RGB图像的多模态工业异常检测仍存在诸多尚未涉足的领域。现有的多模态工业异常检测方法直接连接多模态特征，这会导致特征间产生强烈干扰，损害检测性能。首先，我们设计了一种基于逐块对比学习的无监督特征融合方法，以促进不同模态特征间的交互；其次，我们使用带有多个记忆库的决策层融合，避免信息损失，并利用额外的新颖分类器做出最终决策；此外，我们还提出了点特征对齐操作，以便更好地对齐点云和RGB特征。

2025-05-06 22:18:53 928

原创 CVPR 2023 名字里带Anomaly Detection的论文合集

CVPR 2023 异常检测合集

2025-04-21 23:03:12 1179

原创 RAG from scratch: Part 11 (Query Structuring) by LangChain

将非结构化自然语言输入，转化为遵循自定义模式的结构化查询对象，适配不同查询需求。

2025-04-17 20:57:30 668

原创 RAG from scratch: Part 10 (Routing) by LangChain

路由的本质是将经过查询翻译后的问题，根据其内容和特征，导向最合适的处理途径或数据源，以实现高效准确的信息检索和处理。

2025-04-17 18:17:11 1098

原创 RAG from scratch: Part 9 (Query Translation -- HyDE) by LangChain

以之前视频使用的notebook为例，针对已编入索引的关于代理的博客文章，定义提示“写一篇xxx来回答给定的问题”，用于生成假设文档。

2025-04-17 16:10:59 1101

原创 R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection 论文精读

Reconstruction 重建via 通过Diffusion 扩散Diffusion for 3D Anomaly Detection 基于扩散的三维异常检测三维异常检测在监测精密制造中局部固有缺陷方面起着至关重要的作用。基于嵌入和基于重建的方法是最受欢迎且成功的方法之一。然而，实际应用中存在两大挑战：其一，基于嵌入的模型因内存限制而遭受严重的计算和存储问题；其二，基于重建的模型采用移动平均误差（MAE）机制，无法检测未掩码区域中的异常。在本文中，我们提出R3D - AD，一种通过扩散模型重建

2025-04-15 22:31:44 1501

原创 RAG from scratch: Part 8 (Query Translation -- Step Back) by LangChain

该内容围绕查询翻译中的“后退一步（回溯）”展开，主要介绍了其在RAG流程中的位置、解决问题的不同方法、谷歌提出的后退提示法以及具体实践操作。

2025-04-13 16:03:16 914

原创 RAG from scratch: Part 7 (Query Translation -- Decomposition) by LangChain

查询翻译处于RAG流程的前端，目标是通过修改、重写或分解用户输入的问题，以优化检索效果，提高后续回答的质量。将用户输入的问题分解为子问题是当前流行且对某些问题有用的技术。例如Google的相关工作，以“最后一个字母链接”问题为例，将“思考机器学习”这样的三个单词输入问题分解为“思考”“机器”“学习”三个子问题，按顺序分别解决子问题，利用前一个子问题的答案辅助解决下一个子问题，最终得出整体解决方案。

2025-04-12 22:09:23 756

原创 RAG from scratch: Part 6 (Query Translation -- RAG Fusion) by LangChain

本视频是“从零开始系列”中关于查询翻译的第二个视频，重点介绍了“RAG Fusion”方法，这是高级RAG流程中查询翻译阶段的一种特定重写方法。

2025-04-12 21:09:05 1243

原创 RAG from scratch: Part 5 (Query Translation -- Multi Query) by LangChain

查询翻译是高级RAG Pipeline的第一阶段，旨在接收用户输入问题，并对其进行翻译处理，以优化检索效果。助手的任务是将问题重新组织成不同子问题，将提示符传递给LLM，解析成字符串并按新行分割，得到问题列表。

2025-04-12 16:43:44 1043

原创 RAG From Scratch: Part 4 (Generation) by LangChain

重点介绍RAG（检索增强生成）系统中的生成环节。

2025-04-09 22:38:04 864

原创 RAG From Scratch: Part 3 (Retrieval) by LangChain

检索的核心价值：通过向量空间的语义匹配，将用户问题与文档建立关联，是RAG系统“准确性”的重要保障。后续环节：检索得到的文档将作为生成模型的输入，结合prompt工程生成最终答案（详见系列视频“生成”部分）。实践关键：合理选择嵌入模型、分割策略和向量存储，通过参数调优（如K值）平衡检索精度与效率。

2025-04-08 22:32:51 584

原创 RAG From Scratch: Part 2 (Indexing) by LangChain

索引与检索器：RAG系统中，需加载外部文档至检索器。检索器依据输入问题，找出相关文档。数字表示优势：建立文档与问题相关性，常借助文档的数字表示。相较自由格式文本，比较向量更简便。多年来，发展出多种将文档压缩为数字表示以便搜索的方法。统计方法与嵌入方法统计方法：如Google等采用统计手段，依据单词频率构建稀疏向量。向量位置对应庞大词汇表，值为单词出现次数，虽向量大且含大量零，但有良好搜索方式。嵌入方法：机器学习的嵌入方法，将文档构建为压缩的固定长度表示，并开发出强大搜索方法。

2025-04-08 21:39:07 1254

原创 RAG From Scratch: Part 1 (Overview) by LangChain

数据局限性：大语言模型（LLMs）预训练虽处理了大量token，但对于私人数据或最新数据仍无法涵盖，其预训练的token数量虽庞大，但相对特定数据而言仍是有限的。上下文窗口扩展：LLMs的上下文窗口不断增大，从最初的几千个token扩展到更多，能容纳几十页到几百页的内容，这为从外部数据源引入信息提供了可能。

2025-04-07 17:51:44 1238

原创 Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping 论文精读

工业异常检测（AD）旨在识别产品中的异常特征或缺陷，是质量检测流程的关键部分。由于异常的罕见性和不可预测性，收集能体现异常情况的数据颇具挑战性。因此，大多数研究聚焦于无监督方法，即仅使用无缺陷样本（也称为标称样本）训练的算法。当前，多数现有的异常检测方法侧重于分析RGB图像。然而，在许多工业场景中，仅基于彩色图像难以有效识别异常，例如，光照条件变化易导致误检，表面偏差可能不会以明显异常的颜色呈现。结合彩色图像和三维传感器获取的表面信息可解决上述问题，并显著提升异常检测效果。

2025-04-01 19:28:06 1235

原创 Towards Scalable 3D Anomaly Detection and Localization.....论文精读

Scalable：可扩展的 Benchmark：基准；标准检查程序3D Anomaly Synthesis：三维异常合成A Self-Supervised Learning Network：一个自监督学习网络所以题目：基于三维异常合成和一个自监督学习网络的基准测试近来，三维异常检测作为一项涉及精细几何判别能力的关键问题，正受到越来越多的关注。然而，真实三维异常数据的匮乏限制了当前模型的可扩展性。为实现大规模异常数据采集，文章提出一种三维异常合成流程，以使现有的大规模三维模型适用于三维异常检测。

2025-03-31 22:44:32 1722

原创 Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt 论文精读

Unsupervised visual anomaly detection无监督视觉异常检测旨在learn models only on normal training samples仅在正常的训练样本上学习模型，并期望这些学到的模型能够detecting anomalies at the image level在图像层面检测出异常情况，甚至对于正常和异常的测试样本，都能够even localizing anomaly regions at the pixel level在像素层面定位出异常区域。

2025-03-11 22:50:49 819

空空如也

空空如也