3Ｄ视觉工坊-CSDN博客

转载 ICRA-2025 | 低成本、高隐私具身导航！Open-Nav：探索开源LLMs零样本视觉语言导航能力

使用SPICE、BLEU、METEOR和ROUGE等文本评估指标，比较了Llama3.1-70B、Qwen2-72B、Gemma2-27B和Phi3-14B四种开源LLM在指令理解上的能力。方法，探索使用开源大型语言模型（LLMs）进行零样本视觉-语言导航（VLN-CE），解决了依赖昂贵的闭源LLMs（如GPT-4）带来的成本和隐私问题。：要求智能体根据文本指令在3D环境中导航。环境中验证性能，通过广泛的实验表明，Open-Nav在性能上与使用闭源LLMs的方法相当，同时具有低成本和保护隐私的优势。

2025-08-20 07:02:23 15

转载 RSS‘25开源 | 破解机器人柔性物体抓取的难题！

研究方向为机器人操作、机器人感知、物理模拟，在RSS，CoRL，ICCV，ICLR等会议上发表多篇论文，并曾获得ICRA Workshop最佳论文奖。，为大家着重分享他们团队的工作。如果您有相关工作需要分享，欢迎文末联系我们。RSS'25｜3D世界模型怎样应用于机器人对柔性物体的操作？，为大家着重分享他们团队的工作。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。：3D视觉工坊很荣幸邀请到了哥伦比亚大学博士生。3D视觉工坊很荣幸邀请到了哥伦比亚大学博士生。3D世界模型在机器人操作中的应用。

2025-08-19 07:03:36 19

转载大模型入侵智驾：蔚来靠仿真闭环，理想押注 VLA，小鹏死磕蒸馏 —— 谁能跑赢？

比起大语言模型，自动驾驶基座模型的研发更复杂、更有挑战”，刘博士表示自动驾驶模型的训练数据远不止单模态的文本数据，还包括摄像头信息、导航信息等关于物理世界的多模态数据。diffusion优点，不仅生成自车轨迹，也生成他车轨迹，提升交互博弈能力，可以根据外部条件输入，改变结果，用户直接与模型对话，开慢点，赶时间，开快点diffusion，慢，效率低：基于常微分的ode采样，大幅加速diffsusion生成过程，2-3步内就可以生成稳定的轨迹RLHF微调：提升专项数据的使用，摆脱模仿学习的上限。

2025-08-19 07:03:36 185

转载 CVPR 2025 Highlight | UltraFusion：基于扩散生成模型的超高动态范围成像

本硕毕业于浙江大学，目前为香港中文大学MMLab博一新生，师从薛天帆教授。CVPR'25 Highlight & Best Demo Honorable Mention | UltraFusion: 由9档曝光差异的输入生成HDR场景。，为大家着重分享他们团队的工作。：3D视觉工坊很荣幸邀请到了香港中文大学MMLab博一新生。，为大家着重分享他们团队的工作。如果您有相关工作需要分享，3D视觉工坊很荣幸邀请到了香港中文大学MMLab博一新生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。

2025-08-18 07:04:27 22

转载顶刊TII新作 | 完美实现动态环境中的长期定位！加速200倍，定位精度+70%！

基于实时子图剪裁的核心思想在于：在多阶段图优化SLAM中，由于传感器不断观测最新的环境特征，新鲜子图不断生成，如果不断地剪裁旧的子图，就可以使得地图始终保持最新的状态。方法流程：该方法首先通过实时分析子图质心特征，初步筛选出重叠率高的冗余子图，并结合观测增益模型评估子图的有效性，从而剔除那些长期存在的无效子图。这种方法有效防止了冗余信息在系统中的累积，确保了移动机器人长期定位的准确性。2）通过提取子地图质心特征来确定子地图与实时采集方法的重叠率，从而过滤掉高度重叠的子地图，显著提升了全局地图更新的实时性。

2025-08-18 07:04:27 51

转载聊一聊小白如何入门六轴机械臂?

南方科技大学本硕博，具备多年机械臂系统实物开发经验，从事机械臂相关创业多年，擅长机械臂建模与参数辨识、逆运动学与动力学算法设计、传统机械臂控制、以及机械臂实物平台的结构设计与软硬件集成。从零开始，系统构建机械臂的全流程认知，通过理论与实践相结合的方式，让学员不仅掌握机械臂的核心原理，更能亲手搭建并控制属于自己的机械臂系统，实现从理论到实践的跨越。课程以「边讲边做」讲解机械臂核心知识，将复杂的运动学与控制理论拆解为可实践的代码模块，以可运行实战支撑每个概念，助力学员从零构建可控机械臂系统。

2025-08-17 00:02:46 119

转载 JD-400！iToF 3D相机！测距0.2~3m！可用于避障、具身智能感知、栈板识别等！

JD-400是一款苏州三迪斯维推出的基于 3D iTOF（indirect Time-of-Flight）技术方案的工业相机产品，即传感器发出经调制的近红外光，遇物体后反射，传感器通过计算光线发射和反射的相位差，再转换成时间差，来换算被拍摄景物的距离，以产生深度信息。产品的技术方案可提供高精度（毫米级）的深度图和三维点云图，集成 RGB（选配）的JD-400相机，可以输出像素对齐的 RGBD 图像；如下表中参数为产品的供电需求，请参考如下参数进行配置相应的供电配件，如超出如下范围值，产品可能被损坏。

2025-08-17 00:02:46 62

转载 ICCV‘25开源 | 港中文新作OmniDepth：统一单目和双目深度估计！完虐DepthAnythingV2！

关键在于潜在对齐阶段采用交叉注意力Transformer，迭代对齐单目与立体表示：首先通过上下文特征引导假设聚合，随后利用聚合的几何约束更新单目表示，实现双向优化。单目和立体深度估计提供了互补的优势：单目方法捕获丰富的上下文先验，但缺乏几何精度，而立体方法利用透视几何，但在处理反射或无纹理表面等歧义时却感到困难。我们的方法通过隐式表示对齐，在单目几何推理和立体像素匹配之间架起桥梁，相较于单目模型(DepthAnythingV2)，实现了卓越的深度准确性和更精细的细节。我们与领先的基准NMRF进行了比较。

2025-08-17 00:02:46 52

转载 ICCV‘25开源 | 港中文新作OmniDepth：统一单目和双目深度估计！完虐DepthAnythingV2！

关键在于潜在对齐阶段采用交叉注意力Transformer，迭代对齐单目与立体表示：首先通过上下文特征引导假设聚合，随后利用聚合的几何约束更新单目表示，实现双向优化。单目和立体深度估计提供了互补的优势：单目方法捕获丰富的上下文先验，但缺乏几何精度，而立体方法利用透视几何，但在处理反射或无纹理表面等歧义时却感到困难。我们的方法通过隐式表示对齐，在单目几何推理和立体像素匹配之间架起桥梁，相较于单目模型(DepthAnythingV2)，实现了卓越的深度准确性和更精细的细节。我们与领先的基准NMRF进行了比较。

2025-08-17 00:02:46 16

转载 ICCV‘25开源 | 港中文新作OmniDepth：统一单目和双目深度估计！完虐DepthAnythingV2！

关键在于潜在对齐阶段采用交叉注意力Transformer，迭代对齐单目与立体表示：首先通过上下文特征引导假设聚合，随后利用聚合的几何约束更新单目表示，实现双向优化。单目和立体深度估计提供了互补的优势：单目方法捕获丰富的上下文先验，但缺乏几何精度，而立体方法利用透视几何，但在处理反射或无纹理表面等歧义时却感到困难。我们的方法通过隐式表示对齐，在单目几何推理和立体像素匹配之间架起桥梁，相较于单目模型(DepthAnythingV2)，实现了卓越的深度准确性和更精细的细节。我们与领先的基准NMRF进行了比较。

2025-08-17 00:02:46 20

转载 ICCV‘25开源 | 港中文新作OmniDepth：统一单目和双目深度估计！完虐DepthAnythingV2！

关键在于潜在对齐阶段采用交叉注意力Transformer，迭代对齐单目与立体表示：首先通过上下文特征引导假设聚合，随后利用聚合的几何约束更新单目表示，实现双向优化。单目和立体深度估计提供了互补的优势：单目方法捕获丰富的上下文先验，但缺乏几何精度，而立体方法利用透视几何，但在处理反射或无纹理表面等歧义时却感到困难。我们的方法通过隐式表示对齐，在单目几何推理和立体像素匹配之间架起桥梁，相较于单目模型(DepthAnythingV2)，实现了卓越的深度准确性和更精细的细节。我们与领先的基准NMRF进行了比较。

2025-08-17 00:02:46 4

转载三维高斯泼溅应用最新综述：分割、编辑与生成

此外，我们还分析了编辑领域的其他方向研究，例如物体删除，视频编辑，以及重绘等任务。我们首先总结了在3DGS的分割，编辑，生成任务中常用的数据集及其特点，可供研究者便捷的参考，其中，图3展示了 13 个常用的分割、编辑和生成数据集的示例。在本综述中，我们从方法设计、监督范式与学习策略三个维度对代表性方法进行归类与比较，进一步总结主流评测数据集与性能指标，并指出当前面临的核心挑战与未来的发展方向，期望为新入门者和资深研究者提供一份系统、可读性强的参考资料，推动3DGS在高层三维理解任务中的广泛应用与深入研究。

2025-08-16 00:01:22 43

转载 ICCV 2025 Oral | 告别「僵尸」3D数字人！清华、南洋理工等联手打造DPoser-X

DPoser-X作为一个即插即用的先验模块，可以在许多地方派上用场，为了方便大家的使用，作者在GitHub进行了非常详细的开源，每个下游任务的测试和训练代码都进行了整理，model_zoo全部开放到Huggingface上，欢迎大家使用与stars!DPoser-X在处理这类问题时，尤其是在有遮挡、侧脸等复杂情况下，表现出了惊人的鲁棒性。任务中，当身体的某些部分（如左腿）被遮挡时，DPoser-X能够生成多种合理的、符合逻辑的完整姿态，而其他方法往往难以做到，这体现了其强大的“想象”和泛化能力。

2025-08-16 00:01:22 81

转载卡尔曼滤波重塑多目标跟踪？SG-LKF：纯视觉第一！任何速度都稳定！

在本文中，我们研究了自我车辆速度在MOT中的关键作用，并提出了一种速度引导的可学习卡尔曼滤波器（SG-LKF），该滤波器能够根据自我车辆速度动态调整不确定性建模，显著提高了高度动态场景中的稳定性和准确性。广泛的实验表明，SG-LKF在KITTI 2D MOT上的HOTA排名第一，达到79.59%，在KITTI 3D MOT上取得了82.03%的HOTA，并且在nuScenes 3D MOT上的AMOTA性能超过了SimpleTrack的2.2%。小时时，它会产生对齐错误的框并遗漏被遮挡的车辆。

2025-08-15 07:01:47 49

转载一文看尽世界机器人大会，不用去现场人挤人了

这边，带来了整个机器人柔性凸焊系统，上位机器人GP12利用3D视觉定位后，在传送带上抓取工件，然后利用2D视觉二次定位，进行上料过程，由另一台GP7完成螺母上料，最后交由凸焊机焊接。不过这次它不跑马拉松了，转行搞起了分拣工作，双臂最大负载可达16kg，观众还可以亲身参与互动，拿取5个工件放置传送带，怎么摆都可以，天工都能轻松分门别类放好。身高130cm、体重35kg的G1机器人，直接给观众们上演一场精彩纷呈的拳击赛，躲闪、格挡、侧踢，拳拳到肉，充分展现了机器人的抗冲击能力和软硬件协调性。

2025-08-15 07:01:47 41

转载 FAST-Calib：激光雷达与相机快速外参标定

然后采用四个检测到的标记的平均位姿作为标定板的估计位姿，从而确定板坐标系的位置和方向。如图4所示（a）和（b）显示了用外部颜色着色的点云分别通过我们的方法和Velo2Cam估计的参数，所有用于联合校准的数据对。给定在相机坐标系中提取的点集PC和在激光雷达坐标系中提取的点集PL（均为圆孔中心），目标是找到一个刚性变换TCL，以最小化对应点之间的距离。5. 边缘膨胀问题：对于具有大光斑尺寸的激光雷达（例如，Livox激光雷达），标定板的边缘经常出现膨胀，导致激光雷达和相机数据之间的特征对应不准确。

2025-08-14 07:02:30 59

转载突破40年Dijkstra算法瓶颈，清华教授等颠覆教科书！斩获STOC最佳论文

因此，如果想设计一个解决最短路径问题的最快算法，合理的做法是先找到最近的点，然后是次近的点，依此类推。迪杰斯特拉的算法会利用之前已探索的区域，决定下一步通过扫描这个区域的「边界」——也就是所有与边界相连的节点。B点距离1单位，C点距离5单位。他拉来三位研究生帮忙细化细节，几个月后，他们取得了部分成功——开发出了一种算法，打破了任意权重下的排序瓶颈，但仅适用于所谓无向图。从起点开始，逐步探索网络中到每个点的最短路径——这种方法很有效，因为知道到附近节点的最短路径，能帮助你找到到更远节点的最短路径。

2025-08-13 07:01:16 78

转载精迅V1-V4！从零搭建一套结构光三维扫描仪[硬件+源码+课程]

我们推出了「精迅」系列设备，是一台面向科研级的高速、高精度、源码级开发的3d面结构光测量设备，能够自由DIY配置，并且与机械臂等结合，开发相应的应用。算法经过高度优化，适配高分辨率相机。：采用DLP4710光机，分辨率更高，支持彩色条纹写入，最高亮度1000LM，无惧户外和黑色场景，适合大范围场景重建。：采用DLP3010光机，界面经过高度优化，一键重建、点云滤波、显示，适合手在眼上的视觉引导、测量场景。点云处理：可以手动设置滤波参数，自动化处理点云，并且可以与点云进行交互、裁切、表面重建算法，

2025-08-12 16:34:51 67