小白学视觉-CSDN博客

原创【荐读IEEE TPAMI】基于模型的强化学习与独立想象力

在基于视觉的交互系统中，世界模型学习行动的后果。然而，在实际场景中，如自动驾驶，存在不可控制的动态，这些动态独立于或与行动信号稀疏相关，这使得学习有效的世界模型变得具有挑战性。为了解决这个问题，我们提出了Iso-Dream++，这是一种基于模型的强化学习方法，具有两个主要贡献。首先，我们优化了逆动力学，鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次，我们基于解耦的潜在想象进行策略优化，我们将不可控制的状态滚动到未来，并将其与当前可控制的状态自适应地关联起来。

2024-05-18 19:15:00 1244

原创【荐读IEEE TPAMI】无监督去雨：非对称对比学习与自相似性相遇

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外，现有方法主要独立利用图像或雨层的属性，很少有方法考虑它们之间的相互排斥关系。为了解决这一困境，我们探索了每层内部的内在自相似性以及两层之间的相互排斥性，并提出了一种无监督的非局部对比学习（NLCL）去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起，而雨块作为负样本则被显著地推开，反之亦然。

2024-05-13 12:24:06 1062

原创医图论文 Arxiv‘25 | 基于证据校准的不确定性引导的超声图像交互分割范式

准确且稳健的超声图像分割对于计算机辅助诊断系统至关重要。然而，超声图像固有的挑战，如模糊边界和斑点噪声，往往使传统分割方法难以取得理想效果。尽管近年来通用图像分割技术（如Segment Anything Model）取得了进展，现有的交互分割方法仍然存在效率低下和缺乏专业性的问题。这些方法严重依赖大量准确的手动或随机采样提示进行交互，需要多次提示和迭代才能达到满意的性能。为了解决这一挑战，作者提出了一种基于证据不确定性估计的端到端高效分层交互分割范式——证据不确定性引导的交互分割（EUGIS）。具体而言，E

2025-06-26 09:45:24 5

原创 ACM MM‘24 | 基于解缠多模态特权知识蒸馏的不完整多模态数据抑郁症识别方法

利用面部图像、音频信号或语言文本记录进行抑郁症识别（DR）已取得显著成果。近年来，多模态抑郁症识别通过融合这些模态的信息，表现优于单模态方法。然而，收集包含所有模态的高质量数据颇具挑战。特别是当某些模态缺失或质量下降时，这些方法的性能往往会降低。为解决这一问题，作者提出了一种通用的多模态抑郁症识别框架，该框架结合了特征解缠和特权知识蒸馏技术。具体而言，作者的方法旨在分离多模态信号中的同质和异质特征，同时抑制噪声，从而自适应地聚合最具信息性的成分，实现高质量的抑郁症识别。

2025-06-26 09:44:30 6

原创 TMM‘24 | 基于语义保留与噪声对齐的跨域低剂量CT图像去噪

基于深度学习（DL）的低剂量CT（LDCT）图像去噪方法可能面临域偏移问题，不同域（即医院）的数据可能具有相似的解剖区域，但呈现出不同的内在噪声特征。因此，作者提出了一种即插即用的模型，称为低频和高频对齐（LHFA），通过利用语义特征和对齐不同CT数据集的噪声分布来解决这一问题，同时保持诊断图像质量并抑制噪声。具体而言，LHFA模型由一个低频对齐（LFA）模块组成，该模块保留语义特征（即低频分量），在重建时来自两个域的干扰较少。

2025-06-26 09:30:00 1120

原创 AAAI‘24 | 基于Transformer的扩散医学图像分割模型MedSegDiff-V2

扩散概率模型（DPM）最近在计算机视觉领域受到广泛关注，这得益于其在图像生成应用中的出色表现，如Imagen、潜在扩散模型和Stable Diffusion等，这些应用展示了令人瞩目的能力，并在社区内引发了大量讨论。最近的研究进一步揭示了DPM在医学图像分析领域的实用性，医学图像分割模型在各种任务中展现出的卓越性能便是明证。尽管这些模型最初基于UNet架构，但通过整合视觉Transformer机制，仍存在提升性能的潜在途径。然而，作者发现简单地将这两种模型结合会导致性能不佳。

2025-06-26 09:30:00 3

原创 CVPR 2025 | 迈向基于多模态大语言模型的零样本异常检测与推理

零样本异常检测（ZSAD）是一种新兴的异常检测范式。与传统的无监督异常检测设置不同，传统方法需要大量的正常样本训练模型，而零样本异常检测在处理数据受限的现实场景时更具实用性。最近，多模态大语言模型（MLLMs）在各种视觉任务中展现出了革命性的推理能力。然而，由于缺乏相应的数据集和基准，图像异常推理方面的研究仍未得到充分探索。为了推动异常检测和推理领域的研究，作者建立了首个视觉指令调优数据集Anomaly-Instruct-125k和评估基准VisA-D&R。

2025-06-26 09:30:00 4

原创 TCSVT 2024 | 用于鲁棒RGB-T跟踪的在线学习样本与自适应恢复

随着视觉跟踪任务的日益多样化，RGB和热红外（RGB - T）模态下的目标跟踪受到了广泛关注。现有的大多数RGB - T跟踪方法主要通过整合RGB和热红外模态的分层互补信息来提高跟踪性能，但由于缺乏重新检测能力，在处理跟踪失败问题上存在不足。为解决这些问题，作者提出了一种具有在线学习样本和自适应目标恢复功能的新型RGB - T跟踪方法。首先，将RGB和热红外模态的特征串联起来，进行稳健的外观建模。其次，设计了一种多模态融合策略，以稳定地整合各模态的可靠信息，并提出使用相似度来衡量跟踪置信度。

2025-06-26 09:30:00 3

转载 YOLOv13来了！清华大学提出基于超图增强的实时目标检测

例如，YOLOv11在保持“骨干-颈部-头部”模块化设计的同时，采用了更高效的C3k2单元，并加入了带局部空间注意力的卷积块（C2PSA），以增强对小尺寸和被遮挡目标的检测效果。：YOLOv12标志着注意力机制的全面融入，它引入了轻量级的区域注意力（Area Attention, A2）和Flash Attention，旨在以高效的方式实现全局和局部语义建模，提升了模型的鲁棒性和精度。结合创新的FullPAD信息流范式和深度可分离卷积的轻量化设计，该模型在保持高效率的同时，实现了当前最优的检测性能。

2025-06-25 15:00:43 3

转载基金委：这笔经费定向投给青年人

评审会开幕式上，自然科学基金委相关负责人叮嘱评审专家，要以高度的使命感和责任感，发挥专业的学术判断力和鉴赏力，全面考察团队——既考察申请人的宏观把握能力和领导凝聚能力，也考察每位参与者的科学素养和学术水平；”评审现场，工作人员向记者介绍，该科学部项目安排了近一小时的提问时间，目的就是充分考察申请人及团队前期的研究成果，以及拟开展研究工作的重要性、科学性、创新性和交叉性，确保优秀项目脱颖而出。“专家们的提问，既有对具体问题的探讨，也有对研究的思路启发和方向性指引，这正是青年科学家所需要的。

2025-06-25 15:00:43 2

转载图解 Transformer 和 MoE 的差别

专家混合（MoE）是一种流行的架构，比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts，它们是前馈网络，但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载，但由于每次仅选择部分专家，因此只有一部分参数被激活。挑战 2）某些专家可能会比其他专家处理更多的 token，导致部分专家训练不足。如果某个专家达到上限，输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声，使其他专家的 logits 更高。

2025-06-25 15:00:43 2

原创 TMI 2024 | 对比图池化：用于大脑网络可解释分类

功能性磁共振成像（fMRI）是一种常用于测量神经激活的技术。它在识别帕金森病、阿尔茨海默病和自闭症等潜在神经退行性疾病方面尤为重要。最近对fMRI数据的分析将大脑建模为图，并通过网络神经网络（GNNs）提取特征。然而，fMRI数据的独特特性要求GNN的特殊设计。定制GNN以生成有效和领域可解释的特征仍然是一个挑战。在本文中，我们提出了一个对比双注意力块和一种称为ContrastPool的可微分图池化方法，以更好地利用GNN进行大脑网络分析，满足fMRI的特定要求。

2025-06-25 09:30:00 81

原创 CVPR‘25 | 重新审视用于3D医学图像分割的MAE预训练

自监督学习（SSL）为挖掘大量未被充分利用的临床数据集的潜力提供了令人兴奋的机会，可应用于各种因标注数据稀缺而受限的下游任务。尽管SSL已经在自然语言处理和计算机视觉等领域引发了变革，但在3D医学图像计算领域，它的应用受到了三个关键问题的限制：预训练数据集规模小、用于3D医学图像分析的架构不足，以及评估实践不够充分。在本文中，作者通过以下方式解决这些问题：i）利用包含39000个3D脑磁共振成像（MRI）体积的大规模数据集；ii）在最先进的nnU - Net框架内使用残差编码器U - Net架构；

2025-06-25 09:30:00 385

原创 CVPR‘25 | DeNVeR：用于无监督视频血管分割的可变形神经血管表示

本文提出了可变形神经血管表示（DeNVeR），这是一种无监督方法，用于在没有标注真值的情况下对X光血管造影视频中的血管进行分割。DeNVeR利用光流和层分离技术，通过测试时训练提高了分割的准确性和适应性。关键贡献包括一种新颖的层分离自举技术、一种并行血管运动损失，以及整合欧拉运动场来对复杂的血管动力学进行建模。这项研究的一个重要部分是引入了XACV数据集，这是第一个具有高质量手动标注分割真值的X光冠状动脉造影视频数据集。

2025-06-25 09:30:00 6

原创 TCSVT 2025 | 基于目标感知泰勒展开近似的红外与可见光图像融合网络

在图像融合任务中，关键在于生成高质量图像，既能突出关键目标，又能增强场景以利于理解。为完成这一任务，并在生成适用于视觉任务（如目标检测与分割）的融合结果时，提供强大的可解释性与泛化能力，作者提出一种新的可解释分解方案，并开发了一种用于红外与可见光图像融合的目标感知泰勒展开近似（T2EA）网络。该T2EA网络包含以下关键步骤：首先，通过设计的泰勒展开近似（TEA）网络，将可见光和红外图像都分解为特征图。然后，利用双分支特征融合（DBFF）网络对泰勒特征图进行分层融合。

2025-06-25 09:30:00 171

原创 TCSVT 2024 | 基于提示引导的语义感知蒸馏用于弱监督增量语义分割

弱监督增量语义分割（WISS）旨在让深度神经网络仅使用图像级标签逐步学习新类别，同时避免灾难性遗忘。尽管WISS避免了使用代价高昂且耗时的逐像素标注，但图像级标签无法提供新类别位置的详细信息，导致性能不佳。为解决这些问题，作者从零样本学习中获得灵感，利用类别名称作为文本提示对类别间的语义关系进行建模，从而促进类别间的知识迁移。然而，分割数据集中的一些类别名称具有多义性。因此，作者设计了一种新的提示模板，通过添加相应类别的同义词和定义来更好地捕捉语义关系。

2025-06-25 09:30:00 6

转载为什么我还是学不会 Attention？

今天我们就来一次「去魅化」，从反向传播、矩阵计算、参数更新的角度，聊聊 Attention 到底哪里容易卡住，以及如何搞懂它。但真正的“坑”在于：很多讲解告诉你“Q去和K计算相似度，再用这个相似度加权V”，就戛然而止了，完全没有解释——我建议你从训练一个简化版的 Attention 开始，跑一遍 + 打一遍断点，所有的黑盒就都变成白盒了。你在前向传播里写的“Attention”，会在反向传播时被“拆解成小操作”逐层求导！，阅读和转发量都挺高的，索性继续这个话题，聊聊 Attention。

2025-06-24 15:01:18 3

转载多模态融合原来这么好发论文？看完我像被“点醒”，太赞啦！

各位如果想快速出成果，不妨从这些角度入手。论文提出FusionSight，通过融合雷达和图像数据，利用ViT提取图像特征，CNN处理雷达数据，并通过FFMT整合特征，实现多模态目标检测和分类，为视障人士提供实时导航辅助。论文提出OGP-Net，通过多视图对比学习和知识蒸馏，融合RGB和IR图像进行语义分割，同时保留模态共享和特定信息，提升多模态和缺失模态场景下的性能。比较火的可解释多模态融合，在原来模型里加个“说明书”，让模型融合文字、图像等数据时，能把决策过程说明白，既提升性能又不“黑箱”。

2025-06-24 15:01:18 14

转载 CVPR 2025 即插即用卷积-自适应矩形卷积！

本图通过四个子图（a、b、c 和 d）直观地展示了四种不同类型卷积核的工作原理，对比了标准卷积、可变形卷积、多尺度卷积以及本文提出的自适应矩形卷积（ARConv）之间的区别和优势。通过动态调整卷积核的高度、宽度和采样点数量，ARConv 能够更好地适应遥感图像中不同大小和形状的目标，从而实现更高效的特征提取和更优的图像融合效果。传统的卷积操作中，卷积核的形状是固定的（通常是正方形），而 ARConv 能够自适应地学习卷积核的高度和宽度，使其能够根据图像中不同物体的大小动态调整卷积核的形状。

2025-06-24 15:01:18 4

原创 TMI‘25 | 通过双重相似性检查提升上下文学习医学图像分割的上下文效果

近期，大型预训练模型中的上下文学习（In-Context Learning, ICL）能力在分割模型的泛化能力方面取得了显著进展。通过提供特定领域的图像-掩码对，ICL模型可以被有效地引导以产生最佳的分割结果，消除了模型微调或交互式提示的必要性。然而，现有的基于ICL的分割模型在应用于具有显著多样性的医学分割数据集时表现出显著的局限性。为了解决这一问题，我们提出了一种双重相似性检查方法，以确保所选上下文样本的有效性，从而在推理过程中最大程度地利用其指导作用。

2025-06-24 09:30:00 8

原创 AAAI 2024 | 从解耦特征查询中学习通用医学图像分割

领域泛化的医学图像分割要求模型从多个源领域学习，并能很好地泛化到任意未见过的目标领域。由于领域偏移问题（即图像是从不同医院和扫描仪采集的），这样的任务在技术上具有挑战性，同时在临床上也很实用。现有的方法要么专注于学习形状不变的表示，要么致力于在源领域之间达成共识。理想的泛化表示应该在跨领域图像的同一通道内显示出相似的模式响应。然而，为了应对显著的分布差异，网络倾向于通过多个通道捕捉相似的模式，同时也允许不同的跨领域模式存在于同一通道中。为了解决这个问题，作者提出利用逐通道解耦的深度特征作为查询。

2025-06-24 09:30:00 8

原创 TCSVT 2025 | 图像金字塔变换器结合信息损失正则化用于一体化图像恢复

一站式图像恢复最近已发展成为低级计算机视觉领域的一个新研究趋势，旨在在一个统一模型中同时处理多种图像退化类型。作为一种典型的多任务学习，现有方法要么侧重于对不同图像恢复任务之间的特异性进行建模，要么侧重于对其共性进行建模。为了充分发挥两者的独特优势，作者提出了一种结合图像金字塔变换器和信息损失正则化的方法（IPT-ILR），其中多尺度架构结构可以同时为多个恢复任务挖掘更多信息，而学习策略可以根据每个恢复任务中的信息损失程度来识别多个恢复任务之间的差异。

2025-06-24 09:30:00 7

原创 ICML 2024 | DiffAug：利用无领域知识的基于扩散的图像增强方法提升无监督对比学习

无监督对比学习在视觉和生物学等领域中日益突出，它借助预先定义的正/负样本进行表征学习。数据增强分为手工设计和基于模型的方法，被视为增强对比学习的关键要素。然而，手工设计的方法需要人类具备特定领域数据的专业知识，且有时会扭曲数据的含义。相比之下，基于生成模型的方法通常需要有监督数据或大规模外部数据，这已成为许多领域中限制模型训练的瓶颈。为解决上述问题，本文提出DiffAug，这是一种新颖的无监督对比学习技术，采用基于扩散模型的正样本数据生成方式。DiffAug由语义编码器和条件扩散模型组成；

2025-06-24 09:30:00 11

转载 CVPR 2025 | CNN：我又活过来了！港大 OverLoCK 重塑即插即用视觉Backbone网络，性能碾压传统模型！

同时，OverLoCK在速度与准确率的平衡上表现出色，如OverLoCK-XT的吞吐量为1672imgs/s ，比Swin-T快300imgs/s以上，Top-1准确率提高1.4%。与强大的基线模型相比，OverLoCK在性能上有显著提升，在速度和精度之间实现了出色的平衡，在多个视觉任务（如图像分类、目标检测和语义分割）中均展现出卓越的性能。OverLoCK-T的mIoU比MogaNet-S和UniRepLKNet-T分别高1.1%和1.7% ，比强调全局建模的VMamba-T高2.3%。

2025-06-23 19:01:34 7

原创医图论文 Arxiv‘25 | H-Net：一种用于心内导管中同时进行3D力估计和立体语义分割的多任务架构

导管插入手术的成功率与提供给外科医生的感官数据密切相关。基于视觉的深度学习模型可以以无传感器的方式提供触觉和视觉信息，同时生产成本较低。鉴于这些模型在计算资源有限的设备上的复杂性，研究主要集中在分别进行力估计和导管分割。然而，目前缺乏一种能够同时从两个不同角度分割导管并估计3D施加力的综合架构。为了填补这一空白，作者提出了一种新颖的、轻量级的、多输入多输出的基于编码器-解码器的架构。该架构旨在从两个视角分割导管，并同时测量在xxxyyy和zzz方向上的施加力。

2025-06-23 09:30:00 9

原创 TMI 2024 | 面向多医院鼻咽癌肿瘤分割的双参考无源主动域适应方法

鼻咽癌（NPC）是一种主要影响头颈部的常见恶性肿瘤。精确勾画肿瘤的临床靶区（GTV）对于鼻咽癌的有效放疗至关重要。尽管现有的方法在GTV分割方面取得了有希望的结果，但它们在临床实践中仍受到缺乏精心标注的数据和难以获取多医院数据的限制。虽然一些无监督域适应（UDA）方法被提出以缓解这一问题，但无条件地映射分布会扭曲底层结构信息，导致性能不佳。

2025-06-23 09:30:00 14

原创 INFFUS 2025 | LFDT-Fusion: 基于潜在特征引导扩散Transformer的通用图像融合模型

对于图像融合任务，扩散模型在原始分辨率图像上多次迭代进行特征映射的效率较低。为解决这一问题，本文提出了一种用于通用图像融合的高效潜在特征引导扩散模型。该模型由像素空间自动编码器和基于Transformer的紧凑型扩散网络组成。具体而言，像素空间自动编码器是一种基于UNet的新型潜在扩散策略，它通过下采样将输入压缩到低分辨率的潜在空间。同时，跳跃连接将多尺度中间特征从编码器传输到解码器进行解码，从而保留原始输入的高分辨率信息。

2025-06-23 09:30:00 10

原创 ICML 2024 | 基于改进特征匹配Transformer的多尺度特征转移网络用于高光谱图像超分辨率重建

高光谱图像超分辨率重建（HISR）旨在将低分辨率高光谱图像（LR-HSI）与高分辨率多光谱图像（HR-MSI）进行融合，以获得高分辨率高光谱图像（HR-HSI）。由于现有的一些HISR方法忽略了LR-HSI和HR-MSI之间显著的特征差异，重建的HR-HSI通常会出现光谱失真和空间纹理模糊的问题。为了解决这个问题，作者提出了一种用于HISR的多尺度特征转移网络（MFTN）。首先，构建三个多尺度特征提取器，从输入图像中提取不同尺度的特征。

2025-06-23 09:30:00 117

转载【arXiv 2025】最新！即插即用，加权卷积wConv2D，让传统CNN焕发新生！

给定输入图像尺寸为C×N×N（含C个通道和N×N分辨率）以及F个尺寸为K×K的滤波器，标准卷积的计算成本为O(N²×C×F×K²)。加权卷积通过在传统卷积操作中引入空间密度函数，使网络能够根据像素相对于参考像素的位置进行差异化加权，从而增强了空间特征的表征能力与提取效果。在传统卷积中，所有局部区域的像素对卷积结果的贡献是均等的，而本文提出的加权卷积需要设计一种机制，使得不同位置的像素能够根据其相对位置被赋予不同的权重。密度函数的作用是对每个像素的相对位置进行加权，从而改进传统卷积的空间特征提取能力。

2025-06-22 15:12:11 30

原创 TMM 2024 | 基于二次条件扩散模型的心脏核磁共振图像盲超分辨率重建（DBSR）

心脏磁共振成像（CMRI）可以帮助专家快速诊断心血管疾病。由于患者在磁共振成像扫描过程中的呼吸和轻微移动，所获得的CMRI可能会严重模糊，影响临床诊断的准确性。为了解决这个问题，作者提出了用于盲CMRI超分辨率的二次条件扩散模型（DBSR）。具体来说，作者提出了一种条件模糊核噪声预测器，它通过扩散模型从低分辨率图像中预测模糊核，将低分辨率CMRI中未知的模糊核转化为已知的模糊核。同时，作者设计了一种新颖的条件CMRI噪声预测器，它使用预测的模糊核作为先验知识来指导扩散模型重建高分辨率CMRI。

2025-06-22 09:30:00 12

原创 TMI 2025 | 凸Adam：基于自配置双优化的三维多任务医学图像配准

医学图像数据的配准需要能够精确对齐解剖结构，同时应用平滑且合理变换的方法。理想情况下，这些方法还应运行快速，并适用于各种任务。基于深度学习的图像配准方法通常需要精心设计的学习过程，且需要大量的训练数据。然而，当试图将相同方法应用于不同解剖区域和不同成像模态时，它们往往难以兼顾通用性。在这项工作中，作者提出了一种方法，该方法提取语义或手工制作的图像特征，并使用耦合凸优化，随后进行基于Adam的实例优化，以实现多任务医学图像配准。

2025-06-22 09:30:00 10

原创 TCSVT 2025 | 基于Transformer的非对称双边U-Net增强显著目标检测

现有的显著目标检测（SOD）方法主要依赖具有跳跃连接的 U 形卷积神经网络（CNNs），以分别结合对定位显著目标和细化目标细节至关重要的全局上下文信息和局部空间细节。尽管取得了巨大成功，但 CNN 在学习全局上下文信息方面的能力有限。最近，视觉变换器（Transformer）由于其强大的全局依赖建模能力，在计算机视觉领域取得了革命性进展。然而，直接将变换器应用于 SOD 并非最优选择，因为变换器缺乏学习局部空间表示的能力。为此，作者探索了变换器和 CNN 的结合，以学习用于 SOD 的全局和局部表示。

2025-06-22 09:30:00 10

原创 ICML 2024 | 黎曼流形上的非参数在线变点检测

欧几里得空间中流时间序列数据的变点非参数检测在文献中已得到广泛研究。然而，当数据属于黎曼流形时，现有方法不再适用，因为它们没有考虑流形的结构和几何性质。在本文中，作者介绍了一种用于流形值数据流中在线变点检测的非参数算法。该算法通过随机黎曼优化计算数据的广义卡尔彻均值，并对其进行监测。作者利用随机黎曼梯度下降的非渐近收敛的新结果，给出了该算法在检测和误报率性能方面的理论界限。作者将算法应用于两种不同的黎曼流形。通过合成数据和真实数据的实验结果，说明了所提方法的性能。变点检测；黎曼流形；随机黎曼优化；非参数变点

2025-06-22 09:30:00 10

转载在字节跳动试用期间会因为水平太菜而被裁吗？

列出你当前在做/接下来能做的所有 task，把每一项都标明预计时间+风险点，交给 mentor 过目，表现“我在努力补漏洞”。前几天有位粉丝私信我：“师兄，我刚进字节，才过来两周，leader一句话没说，我天天做不出需求，会不会被试用期裁掉？每个项目里总有一些“功能不难但重要度高”的子任务，争取去做这些，留下结果证明你有“稳定交付能力”。很多人是“高估自己 + 高强度面试冲刺”进的字节，一落地发现：完了，这玩意是集体卷王地狱。不是你觉得菜，就一定会被裁，而是你“不动”“不行”“不改”才危险。

2025-06-21 16:58:47 10

转载从工业自动化到智能机器人双轨道战略布局 | OPT2025产品发布会圆满落幕

在3D测量和检测领域，OPT构建了业内少有的全系列产品线，从应用最广的线激光系列，到一次成像的高精度投影结构光系列，再到超大视野覆盖、附带彩色+深度对齐的散斑结构光系列，实现测量场景全覆盖。从纳米级的光学成像技术，到全球最小体积的CXP相机，从超10亿级的工业落地场景，到千亿级的有效缺陷数据，OPT副总裁贺珍真结合公司20年发展历程，系统回顾了OPT的光学、结构、电子、算法、软件及AI六大核心技术之间如何相互协同，构建起覆盖工业视觉、智能传感、运动控制、AI及具身智能的全栈技术体系。

2025-06-21 16:58:47 9

转载 CVPR 2025 | Transformer之光！全新的视觉几何基础Transformer网络

VGGT作为一种前馈神经网络，在多个3D任务中取得了领先成果，其简单性和效率使其非常适合实时应用，为3D重建领域带来了新的思路和方法。：基于标准的大型变换器设计，采用交替注意力（AA）机制，让变换器在每个帧内和全局范围内交替聚焦，平衡不同图像信息的整合和标记激活的归一化，且仅使用自注意力层。个RGB图像组成的序列，VGGT将其映射到相应的一组3D注释，包括相机参数、深度图、点图和用于点跟踪的特征网格。：修改后的VGGT在不需要输入相机参数且使用较少训练数据的情况下，在GSO数据集上取得了有竞争力的结果。

2025-06-21 16:58:47 39

原创 TMI‘24 | ScribFormer: Transformer 使 CNN 在基于涂鸦的医学图像分割中表现更好

大多数最近的涂鸦监督分割方法通常采用具有编码器-解码器架构的 CNN 框架。尽管这种框架具有多重优势，但由于卷积层的局部感受野，它通常只能捕捉小范围的特征依赖关系，这使得从涂鸦注释提供的有限信息中学习全局形状信息变得困难。为了解决这个问题，本文提出了一种新的 CNN-Transformer 混合解决方案，称为 ScribFormer，用于涂鸦监督的医学图像分割。

2025-06-21 09:30:00 14

原创 TMI 2025 | 基于提示驱动的潜在域泛化用于医学图像分类

用于医学图像分析的深度学习模型很容易受到由数据集伪影偏差、相机变化、成像站差异等引起的分布偏移的影响，这导致在现实临床环境中的诊断不可靠。域泛化（DG）方法旨在在多个域上训练模型，以便在未见域上也能表现良好，为解决这一问题提供了一个有前景的方向。然而，现有的DG方法假定每个图像的域标签是可用且准确的，而这通常只在有限数量的医学数据集上可行。为应对这些挑战，作者提出了一种统一的、不依赖域标签的医学图像分类DG框架，称为提示驱动潜在域泛化（PLDG）。PLDG由无监督域发现和提示学习组成。

2025-06-21 09:30:00 23

原创 INFFUS 2025 | 水下图像增强的退化解耦与语义聚合跨空间融合

随着海洋资源的开发，水下成像的增强近来受到了广泛关注。复杂的水下环境会导致图像出现各种退化问题，如偏色和雾霾效应。这些退化因素在原始颜色空间中相互交织，使得现有的方法难以将其消除。此外，当前的水下图像增强技术仅专注于提升视觉质量，而未考虑下游的语义理解任务，这可能会对后续应用产生影响。为了解决这些问题，作者提出了一种场景自适应语义聚合退化解耦（S2D2）框架。该方法主要由两个部分组成：退化解耦颜色空间转换和语义聚合跨空间融合。

2025-06-21 09:30:00 14

原创 ICML 2024 | 成对对齐方法提升图领域适应性能

基于图的方法在许多实际应用中对于相互关联对象的标签推断至关重要。然而，如果用于模型训练的图与用于测试的图存在显著差异，这些方法往往会面临泛化挑战。本文深入研究图域适应（GDA），以解决图数据分布转移带来的独特复杂性，其中相互关联的数据点在特征、标签，特别是连接模式上会发生转移。作者提出了一种新颖且有理论依据的方法——成对对齐（Pair-Align），通过减轻条件结构转移（CSS）和标签转移（LS）来应对图结构转移。Pair-Align使用边权重重新校准相邻节点之间的影响以处理CSS，并通过标签权重调整分类损

2025-06-21 09:30:00 6

Python视觉实战项目31讲.pdf

空空如也