Robotic Visual Instruction
目录
1. 引言
传统人机交互主要依赖自然语言,但在空间精度上存在模糊和冗长问题,尤其在图书馆、医院等安静场所不适用。
为解决这一问题,本文提出 Robotic Visual Instruction (RoVI),通过手绘的物体中心(object-centric)符号(箭头、圆圈、颜色、数字)编码空间-时间信息,用 2D 草图指挥 3D 机器人操作。
为实现机器理解 RoVI,提出了 VIEW (Visual Instruction Embodied Workflow),利用视觉-语言模型(VLM)解码 RoVI 并生成可执行的 3D 动作序列。
此外,构建了包含 15K 实例的专用数据集 RoVI Book,用于小模型的微调。RoVI 展现了对未见任务的强泛化能力,实际场景中成功率达 87.5%。
图 1.
- (左)机器人视觉指令是一种手绘方式,用于指挥机器人,通过圆圈和箭头传达任务定义。在长时间任务中,绿色和蓝色的草图分别表示第一步和第二步任务。
- (右)展示了通过 VIEW 输出的动作序列。我们的方法在实际操作任务中表现出强大的泛化能力,包括 (a) 路径跟随任务,(b) 带有干扰的杂乱环境,以及 (c) 多步骤操作。
图 2.
- (左)RoVI 在用户友好性、可解释性和时空对齐之间实现了最佳平衡。
- (右)展示了四种人机交互方式的示例及其各自的优缺点。
2. 相关工作
人机交互(HRI):随着视觉语言模型(VLM)的进步,基于语言的机器人控制方法广泛出现,如目标图像(goal-image)策略、多模态提示和轨迹输入。目标图像方法要求提供任务结束后的状态图像,轨迹输入则需要用户绘制整个动作路径,两者都对用户不友好,尤其在真实应用中难以操作。
机器人视觉提示:已有研究探索用箭头、草图、数字等符号化语言,提升视觉问答(VQA)的准确性。但这些方法主要集中在图像理解领域,尚未扩展到机器人操作。即使在机器人领域,现有方法通常依赖自然语言,依然无法很好表达任务中的空间细节。
关键点约束:现有研究利用环境中的关键点作为空间约束,显著提高了操作效果。但它们通常需先检测物体关键点,再通过 VLM 推理。本文提出的方法不同,直接从 RoVI 符号中提取关键点,更直接、高效,减少了环境干扰带来的影响。
3. 机器视觉指令设计
机器视觉指令(Robotic Visual Instruction,RoVI),主要由两类视觉符号组成:箭头和圆圈,用来表示和分解复杂的机器人任务。
-
箭头(Arrow)
箭头表示机器人的动作轨迹和时间顺序,由三部分组成:起点(Tail)、路径点(Shaft)、终点(Head)。 -
圆圈(Circle)
圆圈标记对象的交互区域。圆心代表抓取点、旋转轴心或按压点。
绘制设置(Drawing Setting):RoVI 可以用触控笔在平板或电脑上绘制,颜色编码帮助区分步骤:
-
绿色(RGB: 0,255,94):第一步
-
蓝色(RGB: 0,255,247):第二步
-
粉色(RGB: 255,106,138):第三步
-
更多步骤可灵活分配颜色。
绘图风格分两类:
-
自由风格(Loose Style):随意手绘
-
几何风格(Geometric Style):用标准几何形状,便于 VLM 理解
此外,圆圈中的箭头头部用标准三角形替代,以增强模型识别效果。
4. RoVI Book 数据集
为了让视觉语言模型(VLMs)理解 RoVI,本文构建了一个专门的包含 15K 组图文问答对的数据集——RoVI Book。
来源:从 Open-X Embodiment 数据集中选取原始任务和图像
每组包含:
- 带 RoVI 标注的初始场景图像
- 作为默认提示(prompt)的查询(query)
- 由 GPT-4o 生成的答案,包括 RoVI 分析、任务名称、细化的步骤规划、Python 函数代码
数据特点:
-
64% 是单步骤任务,36% 是多步骤任务
-
覆盖五大操作技能:移动物体、旋转物体、拾取、开抽屉/柜子、关抽屉/柜子
-
答案经过人类反馈的语义筛选优化
-
每个任务生成 3–8 种视觉变体,包括不同的路径、绘图风格、线条粗细等,提升模型的泛化能力
5. 工作流(VIEW)
5.1 工作流程概述
VIEW(Visual Instruction Embodied Workflow) 是一个将 RoVI 转换为机器人动作序列的工作流程,包括三个核心部分:
-
VLM 模型(f_θ):理解 RoVI 和规划任务;
-
关键点模块(f_δ):生成空间-时间约束;
-
低层(low-level)策略(π):执行机器人具体动作。
流程:
- VLM 输入手绘的 RoVI、观测图像和默认提示,输出语言响应(y_language)和执行函数(y_code);
- 关键点模块提取 RoVI 的关键点(如起点、路径点、终点)生成时空限制;
- 低层策略结合 y_code 和关键点驱动机器人完成任务。
5.2 VLMs 对 RoVI 的理解
VLM 通过视觉感知、知识和推理能力,将 RoVI 转换为:
-
高层任务描述(例如 “移动红色杯子到桌子上”)
-
细化的子任务步骤(如 “抓取杯子”,“移动到桌子”)
-
Python 代码(如
move()
、grasp()
)用于机器人调用
相比直接输出 SE(3) 动作参数的端到端策略,这种语言+代码结合的方式更易于跨任务和环境泛化。
5.3 关键点模块
多步骤任务通过颜色区分各步骤,再分解成单步任务。
模块利用 YOLOv8 提取箭头和圆圈中的关键点(如起点、路径点、终点),为机器人提供动作约束。
5.4 基于关键点的低层策略
提取的 2D 关键点通过 RGB-D 相机的深度数据(depth data)映射为 3D 坐标,生成 SE(3) 空间的末端执行器姿态序列:
-
平移动作(如移动、推、拉)
-
旋转动作(如翻转、旋钮调整)
在执行中,机器人会:
-
获取当前姿态和目标关键点
-
通过靠近目标点,来最小化代价函数
-
达到目标点后切换到下一个关键点
代价函数包含平移误差和旋转误差。
6. 实验
实验聚焦三个核心问题:
-
RoVI 在未见环境和任务中的泛化表现如何?(见第 6.1、6.2 节)
-
当前 VLM 对 RoVI 的理解能力如何?(见第 6.3 节)
-
RoVI 和 VIEW 的各组件对整体性能有何影响?(见第 6.4 节)
模型训练:使用 GPT-4o、LLaVA-13B 作为 VIEW 中 VLM 来控制机械臂操控。LLaVA-7B/13B 通过 LoRA 在 RoVI Book 上微调,训练 1 轮,学习率 2e-4,硬件为 NVIDIA A40 GPU。
实现流程:YOLOv8 用于提取手绘关键点,结合 AnyGrasp 选出最近抓取点,通过 RGB-D 转换为 3D 坐标,输入 VLM 生成的 Python 函数,实现机器人控制。
任务设计:共 11 个任务(8 现实、3 仿真),包括 7 个单步骤任务和 4 个多阶段任务,涵盖杂乱环境、物体选择、移动、复杂时空推理等。
6.1 现实环境中的泛化能力
设置:使用 UFACTORY X-Arm 6 和 UR5 机械臂,配备双视角 RealSense D435 相机,执行 11 个新任务(8 个真实、3 个仿真),含多步骤、干扰、轨迹跟随任务。
对比方法:CoPa、VoxPoser、Octo 等语言条件策略。
结果:VIEW 在空间精准度、干扰场景和多步骤任务上显著优于基线,平均成功率 87.5%,展示了强泛化和稳健性。
6.2 仿真环境比较研究
设置:使用 SAPIEN 模拟器和 SIMPLER 环境,对比语言指令、目标图像、RoVI 三种输入方式。
对比对象:RT-1-X、Octo 等模型。
6.3 现代 VLM 对 RoVI 的理解
评估对象:GPT-4o、Gemini-1.5 Pro、Claude 3.5 Sonnet、LLaVA-13B 等。
指标:
- 任务理解(Task):是否正确理解 RoVI 和场景定义的任务
- 规划能力(Planning):是否能将复杂任务分解为合理子步骤
结果:大模型(GPT-4o、Gemini、Claude)即使零样本也表现强劲,RoVI Book 微调的 LLaVA-13B 在多步骤任务上尤其出色。
图 9. 语言响应的错误分布。使用 RoVI Book 训练后,动作决策和时间序列中的错误显著减少(黑框处高亮显示)。
6.4 消融研究
绘图风格:几何风格优于随意风格,能显著提升 VLM 对任务的理解力。
关键点模块:YOLOv8 相比开集(open-vocabulary)检测器(如 Grounding DINO、OWL-ViT)在像素精度(MD)和检测准确率(Mean Average Precision,mAP)上表现更优,尤其在任务相关关键点提取上表现突出。
7. 结论与未来工作
本文提出了 Robotic Visual Instruction(RoVI),一种用户友好、空间精准的机器人指令方式,通过手绘符号(箭头、圆圈、颜色、数字)替代自然语言,克服语言表达的模糊和冗长问题。
设计的 VIEW(Visual Instruction Embodied Workflow) 框架能够有效地将 RoVI 转换为实际机器动作,在复杂、杂乱、多步骤任务中展现了强大的泛化能力和稳健性。
此外,还构建了 RoVI Book 数据集,用于微调 VLM 模型,使其更好理解 RoVI,同时具备边缘设备的部署潜力。
未来工作
-
扩展 RoVI Book 数据集,涵盖更多自由绘制的指令样本
-
提炼人类使用视觉符号传递动态信息的通用原则
-
提升小模型(如 7B 模型)的训练效率,便于在边缘设备上部署
论文地址:https://arxiv.org/abs/2505.00693
项目页面:https://robotic-visual-instruction.github.io/
进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群