（2025|伦敦帝国理工 & 上海 AI lab，机器人，VLM，LLaVA，RoVI，VIEW）机器人视觉指令-CSDN博客

（左）机器人视觉指令是一种手绘方式，用于指挥机器人，通过圆圈和箭头传达任务定义。在长时间任务中，绿色和蓝色的草图分别表示第一步和第二步任务。
（右）展示了通过 VIEW 输出的动作序列。我们的方法在实际操作任务中表现出强大的泛化能力，包括 (a) 路径跟随任务，(b) 带有干扰的杂乱环境，以及 (c) 多步骤操作。

图 2.

（左）RoVI 在用户友好性、可解释性和时空对齐之间实现了最佳平衡。
（右）展示了四种人机交互方式的示例及其各自的优缺点。

2. 相关工作

人机交互（HRI）：随着视觉语言模型（VLM）的进步，基于语言的机器人控制方法广泛出现，如目标图像（goal-image）策略、多模态提示和轨迹输入。目标图像方法要求提供任务结束后的状态图像，轨迹输入则需要用户绘制整个动作路径，两者都对用户不友好，尤其在真实应用中难以操作。

机器人视觉提示：已有研究探索用箭头、草图、数字等符号化语言，提升视觉问答（VQA）的准确性。但这些方法主要集中在图像理解领域，尚未扩展到机器人操作。即使在机器人领域，现有方法通常依赖自然语言，依然无法很好表达任务中的空间细节。

关键点约束：现有研究利用环境中的关键点作为空间约束，显著提高了操作效果。但它们通常需先检测物体关键点，再通过 VLM 推理。本文提出的方法不同，直接从 RoVI 符号中提取关键点，更直接、高效，减少了环境干扰带来的影响。

3. 机器视觉指令设计

机器视觉指令（Robotic Visual Instruction，RoVI），主要由两类视觉符号组成：箭头和圆圈，用来表示和分解复杂的机器人任务。

箭头（Arrow）
箭头表示机器人的动作轨迹和时间顺序，由三部分组成：起点（Tail）、路径点（Shaft）、终点（Head）。
圆圈（Circle）
圆圈标记对象的交互区域。圆心代表抓取点、旋转轴心或按压点。

绘制设置（Drawing Setting）：RoVI 可以用触控笔在平板或电脑上绘制，颜色编码帮助区分步骤：

绿色（RGB: 0,255,94）：第一步
蓝色（RGB: 0,255,247）：第二步
粉色（RGB: 255,106,138）：第三步
更多步骤可灵活分配颜色。

绘图风格分两类：

自由风格（Loose Style）：随意手绘
几何风格（Geometric Style）：用标准几何形状，便于 VLM 理解

此外，圆圈中的箭头头部用标准三角形替代，以增强模型识别效果。

4. RoVI Book 数据集

为了让视觉语言模型（VLMs）理解 RoVI，本文构建了一个专门的包含 15K 组图文问答对的数据集——RoVI Book。

来源：从 Open-X Embodiment 数据集中选取原始任务和图像

每组包含：

带 RoVI 标注的初始场景图像
作为默认提示（prompt）的查询（query）
由 GPT-4o 生成的答案，包括 RoVI 分析、任务名称、细化的步骤规划、Python 函数代码

数据特点：

64% 是单步骤任务，36% 是多步骤任务
覆盖五大操作技能：移动物体、旋转物体、拾取、开抽屉/柜子、关抽屉/柜子
答案经过人类反馈的语义筛选优化
每个任务生成 3–8 种视觉变体，包括不同的路径、绘图风格、线条粗细等，提升模型的泛化能力

5. 工作流（VIEW）

5.1 工作流程概述

VIEW（Visual Instruction Embodied Workflow） 是一个将 RoVI 转换为机器人动作序列的工作流程，包括三个核心部分：

VLM 模型（f_θ）：理解 RoVI 和规划任务；
关键点模块（f_δ）：生成空间-时间约束；
低层（low-level）策略（π）：执行机器人具体动作。

流程：

VLM 输入手绘的 RoVI、观测图像和默认提示，输出语言响应（y_language）和执行函数（y_code）；
关键点模块提取 RoVI 的关键点（如起点、路径点、终点）生成时空限制；
低层策略结合 y_code 和关键点驱动机器人完成任务。

5.2 VLMs 对 RoVI 的理解

VLM 通过视觉感知、知识和推理能力，将 RoVI 转换为：

高层任务描述（例如 “移动红色杯子到桌子上”）
细化的子任务步骤（如 “抓取杯子”，“移动到桌子”）
Python 代码（如 move()、grasp()）用于机器人调用

相比直接输出 SE(3) 动作参数的端到端策略，这种语言+代码结合的方式更易于跨任务和环境泛化。

5.3 关键点模块

多步骤任务通过颜色区分各步骤，再分解成单步任务。

模块利用 YOLOv8 提取箭头和圆圈中的关键点（如起点、路径点、终点），为机器人提供动作约束。

5.4 基于关键点的低层策略

提取的 2D 关键点通过 RGB-D 相机的深度数据（depth data）映射为 3D 坐标，生成 SE(3) 空间的末端执行器姿态序列：

平移动作（如移动、推、拉）
旋转动作（如翻转、旋钮调整）

在执行中，机器人会：

获取当前姿态和目标关键点
通过靠近目标点，来最小化代价函数
达到目标点后切换到下一个关键点

代价函数包含平移误差和旋转误差。

6. 实验

实验聚焦三个核心问题：

RoVI 在未见环境和任务中的泛化表现如何？（见第 6.1、6.2 节）
当前 VLM 对 RoVI 的理解能力如何？（见第 6.3 节）
RoVI 和 VIEW 的各组件对整体性能有何影响？（见第 6.4 节）

模型训练：使用 GPT-4o、LLaVA-13B 作为 VIEW 中 VLM 来控制机械臂操控。LLaVA-7B/13B 通过 LoRA 在 RoVI Book 上微调，训练 1 轮，学习率 2e-4，硬件为 NVIDIA A40 GPU。

实现流程：YOLOv8 用于提取手绘关键点，结合 AnyGrasp 选出最近抓取点，通过 RGB-D 转换为 3D 坐标，输入 VLM 生成的 Python 函数，实现机器人控制。

任务设计：共 11 个任务（8 现实、3 仿真），包括 7 个单步骤任务和 4 个多阶段任务，涵盖杂乱环境、物体选择、移动、复杂时空推理等。

6.1 现实环境中的泛化能力

设置：使用 UFACTORY X-Arm 6 和 UR5 机械臂，配备双视角 RealSense D435 相机，执行 11 个新任务（8 个真实、3 个仿真），含多步骤、干扰、轨迹跟随任务。

对比方法：CoPa、VoxPoser、Octo 等语言条件策略。

结果：VIEW 在空间精准度、干扰场景和多步骤任务上显著优于基线，平均成功率 87.5%，展示了强泛化和稳健性。

6.2 仿真环境比较研究

设置：使用 SAPIEN 模拟器和 SIMPLER 环境，对比语言指令、目标图像、RoVI 三种输入方式。

对比对象：RT-1-X、Octo 等模型。

6.3 现代 VLM 对 RoVI 的理解

评估对象：GPT-4o、Gemini-1.5 Pro、Claude 3.5 Sonnet、LLaVA-13B 等。

指标：

任务理解（Task）：是否正确理解 RoVI 和场景定义的任务
规划能力（Planning）：是否能将复杂任务分解为合理子步骤

结果：大模型（GPT-4o、Gemini、Claude）即使零样本也表现强劲，RoVI Book 微调的 LLaVA-13B 在多步骤任务上尤其出色。

图 9. 语言响应的错误分布。使用 RoVI Book 训练后，动作决策和时间序列中的错误显著减少（黑框处高亮显示）。

6.4 消融研究

绘图风格：几何风格优于随意风格，能显著提升 VLM 对任务的理解力。

关键点模块：YOLOv8 相比开集（open-vocabulary）检测器（如 Grounding DINO、OWL-ViT）在像素精度（MD）和检测准确率（Mean Average Precision，mAP）上表现更优，尤其在任务相关关键点提取上表现突出。

7. 结论与未来工作

本文提出了 Robotic Visual Instruction（RoVI），一种用户友好、空间精准的机器人指令方式，通过手绘符号（箭头、圆圈、颜色、数字）替代自然语言，克服语言表达的模糊和冗长问题。

设计的 VIEW（Visual Instruction Embodied Workflow） 框架能够有效地将 RoVI 转换为实际机器动作，在复杂、杂乱、多步骤任务中展现了强大的泛化能力和稳健性。

此外，还构建了 RoVI Book 数据集，用于微调 VLM 模型，使其更好理解 RoVI，同时具备边缘设备的部署潜力。

未来工作

扩展 RoVI Book 数据集，涵盖更多自由绘制的指令样本
提炼人类使用视觉符号传递动态信息的通用原则
提升小模型（如 7B 模型）的训练效率，便于在边缘设备上部署

论文地址：https://arxiv.org/abs/2505.00693

项目页面：https://robotic-visual-instruction.github.io/

进 Q 学术交流群：922230617 或加 CV_EDPJ 进 W 交流群