
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
分割一切模型(SAM)因其对未知数据和任务的突出概括而受到广泛关注。尽管前景看好,但SAM的脆弱性,尤其是对普遍敌对扰动(UAP)的脆弱性还没有被彻底研究。本文提出了第一个针对SAM的免提示通用攻击框架DarkSAM,包括基于语义解耦的空间攻击和基于纹理失真的频率攻击。我们首先将SAM的输出分为前台和后台。然后,我们设计一个阴影目标策略,获取图像的语义蓝图作为攻击目标。DarkSAM致力于通过从空

我们提出了Hi-SLAM,一种语义3D高斯Splatting SLAM方法,其特征在于一种新颖的分层分类表示,该方法能够在3D世界中实现精确的全局3D语义映射、放大能力和显式语义标签预测。语义SLAM系统中的参数使用随着环境复杂性的增加而显著增加,使得场景理解特别具有挑战性并且成本高。为了解决这个问题,我们引入了一种新的分层表示法,它利用大型语言模型(LLM)的能力,以紧凑的形式将语义信息编码到3

我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和

RT-DETR是第一款基于实时端到端转换器的物体检测器。它的效率来自于框架设计和匈牙利匹配。然而,与YOLO系列等密集监督检测器相比,匈牙利匹配提供的监督要稀疏得多,导致模型训练不足,难以实现最佳结果。为了解决这些问题,我们提出了一种基于RT-DETR的分层密集正监督方法,命名为RT-DETRv3。首先,我们引入一个基于CNN的辅助分支,它提供密集的监督,与原始解码器协作来增强编码器特征表示。其次

训练自动驾驶汽车的感知系统需要大量的注释。然而,在2D图像中手工标记是高度劳动密集型的。虽然现有数据集为预先录制的序列提供了丰富的注释,但它们在标注很少遇到的视点方面存在不足,这潜在地阻碍了感知模型的泛化能力。在本文中,我们提出了PanopticNeRF-360,这是一种新的方法,它将粗糙的3D注释与嘈杂的2D语义线索相结合,以从任何视点生成一致的全景标签和高质量图像。我们的关键见解在于利用3D和

在本文中,我们重新思考稀疏词汇表示的图像检索。通过利用支持视觉提示的多模态大型语言模型(M-LLM ),我们可以提取图像特征并将其转换为文本数据,从而使我们能够利用自然语言处理中采用的高效稀疏检索算法来执行图像检索任务。为了帮助LLM提取图像特征,我们将数据增强技术应用于密钥扩展,并使用图像和文本数据之间的相关性度量来分析影响。

gsplat是一个开源库,用于训练和开发高斯分布方法。它的特点是前端具有与PyTorch库兼容的Python绑定,后端具有高度优化的CUDA内核。gsplat提供了许多增强高斯分布模型优化的特性,包括速度、内存和收敛时间的优化改进。实验结果表明,与原始实现相比,gsplat的训练时间减少了10%,内存减少了4倍。gsplat在几个研究项目中使用,并在GitHub上积极维护。源代码可从https:/

本文提出了FAST-LIVO2:一种快速、直接的激光雷达-惯性-视觉里程计框架,旨在在SLAM任务中实现准确且鲁棒的状态估计,并为实时、机载机器人应用提供巨大潜力。FAST-LIVO2通过扩展卡尔曼滤波器(ESIKF)高效地融合了IMU、激光雷达和图像测量数据。为了解决异构激光雷达和图像测量数据之间的维度不匹配问题,我们在卡尔曼滤波器中采用了顺序更新策略。

立体匹配是许多计算机视觉和机器人系统中的核心组件。尽管在过去十年中取得了重大进展,但处理不适定区域和大差异中的匹配歧义仍然是一个公开的挑战。在本文中,我们提出了一种新的用于立体匹配的深度网络架构,称为IGEV++。所提出的IGEV++构建多范围几何编码体(MGEV ),其对不适定区域和大差异的粗粒度几何信息进行编码,并对细节和小差异的细粒度几何信息进行编码。为了构建MGEV,我们引入了一个自适应补

点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:计算机视觉工坊添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研