(2025|伦敦帝国理工 & 上海 AI lab,机器人,VLM,LLaVA,RoVI,VIEW)机器人视觉指令

Robotic Visual Instruction

目录

1. 引言

2. 相关工作

3. 机器视觉指令设计

4. RoVI Book 数据集

5. 工作流(VIEW)

5.1 工作流程概述

5.2 VLMs 对 RoVI 的理解

5.3 关键点模块

5.4 基于关键点的低层策略

6. 实验

6.1 现实环境中的泛化能力

6.2 仿真环境比较研究

6.3 现代 VLM 对 RoVI 的理解

6.4 消融研究

7. 结论与未来工作


1. 引言

传统人机交互主要依赖自然语言,但在空间精度上存在模糊和冗长问题,尤其在图书馆、医院等安静场所不适用。

为解决这一问题,本文提出 Robotic Visual Instruction (RoVI),通过手绘的物体中心(object-centric)符号(箭头、圆圈、颜色、数字)编码空间-时间信息,用 2D 草图指挥 3D 机器人操作。

为实现机器理解 RoVI,提出了 VIEW (Visual Instruction Embodied Workflow),利用视觉-语言模型(VLM)解码 RoVI 并生成可执行的 3D 动作序列。

此外,构建了包含 15K 实例的专用数据集 RoVI Book,用于小模型的微调。RoVI 展现了对未见任务的强泛化能力,实际场景中成功率达 87.5%。

图 1.

  • (左)机器人视觉指令是一种手绘方式,用于指挥机器人,通过圆圈和箭头传达任务定义。在长时间任务中,绿色和蓝色的草图分别表示第一步和第二步任务。
  • (右)展示了通过 VIEW 输出的动作序列。我们的方法在实际操作任务中表现出强大的泛化能力,包括 (a) 路径跟随任务,(b) 带有干扰的杂乱环境,以及 (c) 多步骤操作。 

图 2.

  • (左)RoVI 在用户友好性、可解释性和时空对齐之间实现了最佳平衡。
  • (右)展示了四种人机交互方式的示例及其各自的优缺点。 

2. 相关工作

人机交互(HRI):随着视觉语言模型(VLM)的进步,基于语言的机器人控制方法广泛出现,如目标图像(goal-image)策略、多模态提示和轨迹输入。目标图像方法要求提供任务结束后的状态图像,轨迹输入则需要用户绘制整个动作路径,两者都对用户不友好,尤其在真实应用中难以操作。

机器人视觉提示:已有研究探索用箭头、草图、数字等符号化语言,提升视觉问答(VQA)的准确性。但这些方法主要集中在图像理解领域,尚未扩展到机器人操作。即使在机器人领域,现有方法通常依赖自然语言,依然无法很好表达任务中的空间细节。

关键点约束:现有研究利用环境中的关键点作为空间约束,显著提高了操作效果。但它们通常需先检测物体关键点,再通过 VLM 推理。本文提出的方法不同,直接从 RoVI 符号中提取关键点,更直接、高效,减少了环境干扰带来的影响。

3. 机器视觉指令设计

机器视觉指令(Robotic Visual Instruction,RoVI),主要由两类视觉符号组成:箭头和圆圈,用来表示和分解复杂的机器人任务。

  • 箭头(Arrow)
    箭头表示机器人的动作轨迹和时间顺序,由三部分组成:起点(Tail)、路径点(Shaft)、终点(Head)。

  • 圆圈(Circle)
    圆圈标记对象的交互区域。圆心代表抓取点、旋转轴心或按压点。

绘制设置(Drawing Setting):RoVI 可以用触控笔在平板或电脑上绘制,颜色编码帮助区分步骤:

  • 绿色(RGB: 0,255,94):第一步

  • 蓝色(RGB: 0,255,247):第二步

  • 粉色(RGB: 255,106,138):第三步

  • 更多步骤可灵活分配颜色。

绘图风格分两类:

  • 自由风格(Loose Style):随意手绘

  • 几何风格(Geometric Style):用标准几何形状,便于 VLM 理解

此外,圆圈中的箭头头部用标准三角形替代,以增强模型识别效果。

4. RoVI Book 数据集

为了让视觉语言模型(VLMs)理解 RoVI,本文构建了一个专门的包含 15K 组图文问答对的数据集——RoVI Book

来源:从 Open-X Embodiment 数据集中选取原始任务和图像

每组包含:

  • 带 RoVI 标注的初始场景图像
  • 作为默认提示(prompt)的查询(query)
  • 由 GPT-4o 生成的答案,包括 RoVI 分析、任务名称、细化的步骤规划、Python 函数代码

数据特点:

  • 64% 是单步骤任务,36% 是多步骤任务

  • 覆盖五大操作技能:移动物体、旋转物体、拾取、开抽屉/柜子、关抽屉/柜子

  • 答案经过人类反馈的语义筛选优化

  • 每个任务生成 3–8 种视觉变体,包括不同的路径、绘图风格、线条粗细等,提升模型的泛化能力

5. 工作流(VIEW

5.1 工作流程概述

VIEW(Visual Instruction Embodied Workflow) 是一个将 RoVI 转换为机器人动作序列的工作流程,包括三个核心部分:

  • VLM 模型(f_θ):理解 RoVI 和规划任务;

  • 关键点模块(f_δ):生成空间-时间约束;

  • 低层(low-level)策略(π):执行机器人具体动作。

流程

  • VLM 输入手绘的 RoVI、观测图像和默认提示,输出语言响应(y_language)和执行函数(y_code);
  • 关键点模块提取 RoVI 的关键点(如起点、路径点、终点)生成时空限制;
  • 低层策略结合 y_code 和关键点驱动机器人完成任务。

5.2 VLMs 对 RoVI 的理解

VLM 通过视觉感知、知识和推理能力,将 RoVI 转换为:

  • 高层任务描述(例如 “移动红色杯子到桌子上”)

  • 细化的子任务步骤(如 “抓取杯子”,“移动到桌子”)

  • Python 代码(如 move()grasp())用于机器人调用

相比直接输出 SE(3) 动作参数的端到端策略,这种语言+代码结合的方式更易于跨任务和环境泛化。

5.3 关键点模块

多步骤任务通过颜色区分各步骤,再分解成单步任务。

模块利用 YOLOv8 提取箭头和圆圈中的关键点(如起点、路径点、终点),为机器人提供动作约束。

5.4 基于关键点的低层策略

提取的 2D 关键点通过 RGB-D 相机的深度数据(depth data)映射为 3D 坐标,生成 SE(3) 空间的末端执行器姿态序列:

  • 平移动作(如移动、推、拉)

  • 旋转动作(如翻转、旋钮调整)

在执行中,机器人会:

  • 获取当前姿态和目标关键点

  • 通过靠近目标点,来最小化代价函数

  • 达到目标点后切换到下一个关键点

代价函数包含平移误差和旋转误差。

6. 实验

实验聚焦三个核心问题:

  • RoVI 在未见环境和任务中的泛化表现如何?(见第 6.1、6.2 节)

  • 当前 VLM 对 RoVI 的理解能力如何?(见第 6.3 节)

  • RoVI 和 VIEW 的各组件对整体性能有何影响?(见第 6.4 节)

模型训练:使用 GPT-4o、LLaVA-13B 作为 VIEW 中 VLM 来控制机械臂操控。LLaVA-7B/13B 通过 LoRA 在 RoVI Book 上微调,训练 1 轮,学习率 2e-4,硬件为 NVIDIA A40 GPU。

实现流程:YOLOv8 用于提取手绘关键点,结合 AnyGrasp 选出最近抓取点,通过 RGB-D 转换为 3D 坐标,输入 VLM 生成的 Python 函数,实现机器人控制。

任务设计:共 11 个任务(8 现实、3 仿真),包括 7 个单步骤任务和 4 个多阶段任务,涵盖杂乱环境、物体选择、移动、复杂时空推理等。

6.1 现实环境中的泛化能力

设置:使用 UFACTORY X-Arm 6 和 UR5 机械臂,配备双视角 RealSense D435 相机,执行 11 个新任务(8 个真实、3 个仿真),含多步骤、干扰、轨迹跟随任务。

对比方法:CoPa、VoxPoser、Octo 等语言条件策略。

结果:VIEW 在空间精准度、干扰场景和多步骤任务上显著优于基线,平均成功率 87.5%,展示了强泛化和稳健性。

6.2 仿真环境比较研究

设置:使用 SAPIEN 模拟器和 SIMPLER 环境,对比语言指令、目标图像、RoVI 三种输入方式。

对比对象:RT-1-X、Octo 等模型。

6.3 现代 VLM 对 RoVI 的理解

评估对象:GPT-4o、Gemini-1.5 Pro、Claude 3.5 Sonnet、LLaVA-13B 等。

指标

  • 任务理解(Task):是否正确理解 RoVI 和场景定义的任务
  • 规划能力(Planning):是否能将复杂任务分解为合理子步骤

结果:大模型(GPT-4o、Gemini、Claude)即使零样本也表现强劲,RoVI Book 微调的 LLaVA-13B 在多步骤任务上尤其出色。

图 9. 语言响应的错误分布。使用 RoVI Book 训练后,动作决策和时间序列中的错误显著减少(黑框处高亮显示)。  

6.4 消融研究

绘图风格:几何风格优于随意风格,能显著提升 VLM 对任务的理解力。

关键点模块:YOLOv8 相比开集(open-vocabulary)检测器(如 Grounding DINO、OWL-ViT)在像素精度(MD)和检测准确率(Mean Average Precision,mAP)上表现更优,尤其在任务相关关键点提取上表现突出。

7. 结论与未来工作

本文提出了 Robotic Visual Instruction(RoVI),一种用户友好、空间精准的机器人指令方式,通过手绘符号(箭头、圆圈、颜色、数字)替代自然语言,克服语言表达的模糊和冗长问题。

设计的 VIEW(Visual Instruction Embodied Workflow) 框架能够有效地将 RoVI 转换为实际机器动作,在复杂、杂乱、多步骤任务中展现了强大的泛化能力和稳健性。

此外,还构建了 RoVI Book 数据集,用于微调 VLM 模型,使其更好理解 RoVI,同时具备边缘设备的部署潜力。

未来工作

  • 扩展 RoVI Book 数据集,涵盖更多自由绘制的指令样本

  • 提炼人类使用视觉符号传递动态信息的通用原则

  • 提升小模型(如 7B 模型)的训练效率,便于在边缘设备上部署


论文地址:https://arxiv.org/abs/2505.00693

项目页面:https://robotic-visual-instruction.github.io/

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值