©PaperWeekly 原创 · 作者 | 杨德杰
单位 | 北京大学王选所博士生
研究方向 | Multi-Modal/VLA
该论文的所有作者均来自北京大学王选计算机研究所,第一作者为博士生杨德杰,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。
本文介绍来自该团队在 ICCV 2025 上的最新工作:AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning。
视觉机器人操作(Visual Robot Manipulation,VRM)旨在使机器人能够根据自身状态和视觉观测来遵循自然语言指令。然而,这需要大量且昂贵的多模态数据。
为弥补机器人数据的不足,现有方法采用基于大规模非机器人数据的视觉-语言预训练。但这些方法要么使用与机器人任务差异较大的网络数据(视觉问答数据等多模态数据),要么以人类视频视觉隐式方式训练模型(例如,在像素级别预测未来帧),导致在机器人数据不足时泛化能力有限。
本文提出一种从大规模人类动作视频数据集中进行显式学习的新方法(即,从手部关键点模仿人类动作),并由此引入了基于类比推理(Analogical Reasoning)的视觉机器人操作框架(AR-VRM)。
为了从人类动作视频中显式地获取动作知识,我们提出了一种关键点视觉-语言模型(Keypoint Vision-Language Model,VLM)预训练方案,使 VLM 能够学习人类动作知识,并直接预测人类手部关键点。
在机器人数据上进行微调时,为了帮助机械臂模仿人类动作的模式,我们首先检索出执行相似操作任务且具有相似历史观测的人类动作视频,然后学习人类手部关键点与机器人部件之间的类比推理(AR)映射关系。
得益于专注于动作关键点而非无关视觉线索,我们的方法在 CALVIN 基准测试和真实世界实验中均取得了领先的性能。在少样本(few-shot)场景下,AR-VRM 大幅超越了先前方法,凸显了在数据稀缺情况下显式模仿人类动作的有效性。
目前该研究已被 ICCV 2025 正式接收,相关代码与模型已全部开源。
论文标题:
AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning
论文链接:
https://arxiv.org/abs/2508.07626
代码链接:
https://github.com/idejie/AR
项目主页:
https://idejie.github.io/AR
▲ 图1:我们的框架与先前方法的对比示意图:我们提出通过手部关键点并结合类比推理,显式地从人类动作中进行学习。
从人类动作中学习知识,实现机器人操作
视觉机器人操作(Visual Robot Manipulation,VRM)是机器人领域的一项核心任务。机器人需要根据当前自身状态和视觉输入,遵循人类的自然语言指令来执行一系列动作,包括物体抓取、放置和装配等任务。
训练此类任务需要大量的多模态数据,这些数据需在机器人工作的特定场景下,将图像、自然语言指令与机器人动作状态进行配对。
然而,这类数据的收集成本高昂,且需要耗时的人工演示来操控机器人完成,过程繁琐。因此,VRM 的性能常常受限于用于训练的机器人操作轨迹和标注数据的稀缺性。
为了弥补机器人数据的不足,现有方法通常利用大规模的视觉-语言非机器人操作数据进行预训练,再在机器人场景下对模型进行微调。
然而,这些预训练数据(例如关于动物和饮食的视觉问答数据集)并不能直接反映物体操作任务,难以为目标任务提供有效的知识指导。
一些研究尝试使用与机器人操作更相似的人类动作视频数据集进行预训练,但它们往往采用隐式的学习方式,例如在特征空间进行对比学习,或使用像素级生成模型来预测未来帧。
这类方法虽然能获取一定的人类动作知识,但不可避免地会引入无关的背景信息或像素级噪声,从而限制了其在数据稀缺的视觉机器人操作任务上的性能表现。
在本文中,我们提出一种新方法:直接从大规模人类动作视频数据集中显式地模仿人类动作。具体而言,我们通过训练模型来预测人类手部关键点,使其直接从动作本身进行学习,从而忽略无关的视觉信息。
为实现这一目标,存在两个主要挑战:1)如何从大规模的人类视频数据集中,以手部关键点的形式提取人类动作知识?2)如何让与人臂结构不同的机器人模仿人类动作,即如何为操作任务建立机器人部件与人体关键点之间的关联?
为应对从人类动作中学习的上述挑战,我们提出了基于类比推理的视觉机器人操作(AR-VRM)。人类的手部动作与机器人的操作行为在物体操控任务中存在着内在的相似性(如抓取物体时的行动轨迹,手掌开合状态,手应抓取物体的部分)。
具体而言,为了从大规模人类视频数据集中显式地提取动作知识,我们设计了一种关键点视觉-语言模型(keypoint VLM)预训练方案。我们采用大规模的第一人称视角人类动作视频数据集(如 Ego4D),其中包含大量人类手部执行的常见操作视频,其任务场景和环境视角与机器人应用高度相似。
我们检测这些教学视频中的人类手部关键点,并预训练一个视觉-语言模型(VLM),使其能够根据当前的视觉输入和语言指令,预测未来动作的手部关键点。
在微调阶段,为了给机器人操作任务提供示范,我们首先检索与机器人当前情境(历史观测)相似的相关人类动作视频。
更重要的是,为弥合机器人臂与人臂之间的差异,我们提出建立一个类比推理(AR)映射,学习机器人臂部件与人类手部关键点之间的几何与功能关联。
通过学习这种对应关系,可以有效指导机器人显式地模仿人类动作,例如接近物体和抓取操作的过程,从而完成各项操作任务。
▲ 图2:AR-VRM 方法框架图:基于类比推理的视觉机器人操作
方法介绍
2.1 问题定义与方法概述
我们将视觉机器人操作(Visual Robot Manipulation,VRM)任务定义如下:
在时间步 ,机器人模型 将语言指令 以及从起始时刻到当前时刻 的历史视觉观测序列 和机器人状态序列 映射为一个机器人动作 :
其中, 为输入图像, 为对应时刻的机器人状态,包含机器人末端执行器的 6D 位姿 和夹爪的二元状态 ,时间步 。
动作 表示状态参数的变化量。完整的机器人数据集 包含配对的语言指令、视觉输入和机器人状态:
这类包含真实机器人动作的配对数据获取困难且成本高昂,因此规模有限。
在本文中,我们提出利用大规模人类动作视频进行视觉-语言预训练,并在机器人数据上进行微调,从而基于手部关键点显式地学习人类动作知识。
如图2所示,我们的框架 AR-VRM 主要包含两个部分:关键点视觉-语言模型(keypoint VLM)预训练方案,以及微调阶段的类比推理(Analogical Reasoning,AR)模块。
预训练阶段:我们首先从大规模人类动作视频中提取手部关键点,构建成人类动作数据序列,并为 VLM 引入一个关键点预测头,使其能够直接预测未来的身体关键点。通过这种方式,模型可以显式地获取人类动作知识,并聚焦于关键的动作信息。
微调阶段:在机器人数据有限的情况下,我们首先从人类教学视频数据库中检索出具有相似操作任务和历史观测的人类动作,利用预训练好的关键点 VLM 预测未来的动作,并引入类比推理机制,建立人类手部关键点与机器人部件之间的对应关系。
通过这一框架,模型能够从显式的人类动作中学习知识,从而在机器人数据不足的情况下实现良好的泛化能力。
2.2 人类动作关键点提取
我们采用大规模第一人称视角人类视频数据集 Ego4D。Ego4D 中的视频样本包含大规模操作任务的人类操作,其环境和视角与机器人应用高度相似。
在人类动作视频数据集 中,提供了一段人类手部完成任务的视频:
其中, 是任务的语言描述, 是时间步 捕获的图像。
与先前方法从视觉信息中隐式学习(不可避免地包含无关背景信息)不同,我们提出通过手部关键点显式地从人类动作本身进行学习。我们采用离线手部姿态估计模型 InterHand 提取每个视频帧中的 3D 手部关键点:
其中 K 表示人手关键点的数量。
预处理后的人类动作视频数据集 定义为:
由 InterHand 提取的关键点基于图像坐标系提供 2D 坐标,提供的关键点深度信息具有 3D 坐标特性,可被机械臂直接模仿。例如,机械臂可精准复现接近物体和执行操作等关键动作过程,实现对人类操作行为的有效迁移。
2.3 关键点视觉-语言模型预训练
给定三种不同模态的数据,我们预训练了一个关键点视觉-语言模型(VLM),使该模型能够理解并直接预测人类动作序列中的手部关键点。
对于语言指令 ,参考相关研究,我们使用 CLIP 文本编码器提取语言嵌入,然后通过多层感知机(MLP)将嵌入投影到维度 :
对于每个视觉输入 ,我们采用使用 MAE 预训练的视觉 Transformer(ViT)作为图像编码器。
我们将输出的 `CLS`
token
作为全局表示,并将输出的 patch tokens
作为局部表示,然后通过感知器重采样器(PR)进行重采样,将 token 数量减少到
。所有输出都通过 MLP 投影到维度
:
对于手部关键点 ,我们采用 HandFormer 作为关键点编码器,并同样将嵌入投影到维度 :
对于三种模态对齐维度后的 token: ,,我们将它们连接成 token 序列,输入到 Transformer 层中,并执行下一个 token 预测进行预训练。
具体而言,在时间步 ,具有自注意力层 的模型基于先前的 token 序列预测关键点 token ,关键点预测头(MLP)将关键点 token 投影回关键点向量,最后与真实关键点计算均方误差(MSE)。
与训练损失可表示为:
在训练过程中,我们固定 CLIP 文本编码器和预训练图像编码器的参数。通过关键点 VLM 预训练,我们从大规模人类动作视频数据集中获取人类动作知识,并使 VLM 能够显式地预测动作关键点。
2.4 基于类比推理的机器人微调
1. 迁移人类 Keypoint VLM 知识:借助在大规模人类数据上预训练、能够理解动作序列的关键点视觉语言模型(Keypoint VLM),我们可以在机器人数据上对该模型进行微调,从而完成视觉机器人操作任务。
在机器人数据集 中,我们提取语言和视觉嵌入,并生成与预训练阶段相同的 token 。
对于机器人状态 ,我们分别使用两个多层感知机(MLP) 对 和 进行编码,然后通过另一个 MLP 将编码向量投影到维度 :
当 token 的维度对齐后,我们将它们输入到预训练的 VLM 中,预测状态 token 。
通过引入机器人状态预测头(MLP),我们将预测的状态 token 投影回机器人状态,并与真实状态计算均方误差(MSE)损失:
2. 显式学习人类动作:除了利用 VLM 预训练权重中的知识,我们还提出在手部关键点层面显式学习人类动作。
其中同样是一个可学习参数,用于控制关键点特征的整体影响权重。
具体而言,给定机器人数据样本 ,我们首先基于语言描述和视觉帧特征,从大规模数据库中检索人类动作视频,其相似度计算如下:
其中 表示余弦相似度。
通过这种方式,我们能够检索到既在操作任务上相似、又在视觉观察上相似的人类动作视频与机器人数据样本进行对齐。我们选取最相似的前 个样本 。
在对人类动作样本 和机器人数据样本 进行前向传播(forward pass)后,关键点预测头(keypoint head)和机器人状态预测头(robot state head)最后一层的特征分别记为 和 ,它们分别表示每个人类手部关键点节点和机器人状态节点的表示,其中 为人类手部关键点的数量, 为机器人臂部件的数量。
我们引入一个可学习的类比映射矩阵 ,用于表示人类手部关键点与机器人手臂部件之间的映射关系,其中矩阵的每个元素表示对应的手部关键点对某个机器人手臂部件的影响程度。
模仿生成的机器人状态特征 按如下方式计算:
其中 同样是一个可学习参数,用于控制关键点特征的整体影响权重。
随后,我们通过一个新的线性层生成新的机器人状态,并计算均方误差(MSE)作为类比推理损失:
整个微调的总损失由机器人状态损失与类比推理损失的加权和构成:
其中 是一个超参数。
2.5 关于微调方法设计的讨论:
需要注意的是,在微调过程中,我们固定关键点编码器(keypoint encoder)和关键点预测头(keypoint head)的参数,仅对 VLM 的 Transformer 层进行微调。
固定关键点编码器和关键点预测头的参数有助于保持其在预训练阶段已经获得的编码和预测关键点参数的能力。
通过在微调过程中使用人类动作视频样本对 VLM 的 Transformer 层进行训练,我们不仅能够让关键点特征引导机器人状态预测头的训练,还能起到数据回放(data replay)的作用,防止 VLM 在有限的机器人数据上过拟合,并避免遗忘在预训练阶段获得的视觉-语言理解与动作预测知识。
实验
3.1 数据集与基准测试
我们首先在极具挑战性的长时程任务基准 CALVIN 上开展实验。CALVIN 是一个模拟的语言条件机器人操作基准测试,它融合了自然语言条件控制、多模态高维输入、7 自由度(7-DOF)连续控制,以及在已见与未见环境中进行的长时程机器人物体操作任务。
该基准包含 34 个子任务和 5 种时序评估序列,提供视觉运动控制常用传感器组合,并通过 4 种操作环境和未见语言指令测试模型的零样本泛化能力。
机器人操作数据集需要昂贵的多模态配对数据,因此规模有限。我们采用大规模人类动作视频数据集 Ego4D 进行预训练。
Ego4D 包含 3500 小时的人-物交互视频,每段视频均配有描述人类动作的自然语言标注。参考相关研究,我们共使用 80 万段视频片段(含 800 万帧)进行预训练,并作为微调阶段检索的人类动作视频数据库。
其次,在真实机器人实验中,我们使用包含橙子、苹果和青枣的托盘,共收集 1200 次移动物体演示和 1400 次抽屉开合轨迹数据。
3.2 实现细节
在网络架构方面,我们使用预训练的 CLIP 文本编码器和 ViT-Base 图像编码器来提取语言指令令牌和视觉输入令牌。
对于局部图像块令牌,我们采用感知器重采样器(PR)来减少令牌数量。对于人类关键点,我们使用预训练的 HandFormer 作为编码器。对于机器人状态,我们遵循先前研究,通过多层感知机(MLP)对机器人臂和夹爪参数进行编码。
我们采用 12 层 Transformer 架构,配备因果注意力机制,并加载自 GPT-2 的语言模型检查点。
在预训练阶段,我们从 Ego4D 数据集中以 3fps 的均匀间隔采样视频帧,并设置学习率为 (使用 AdamW 优化器),在 NVIDIA A800 GPU 上以 512 的批量大小训练 100 个周期。
在微调阶段,冻结处理人类数据的多个编码器和关键点预测头,有助于稳定模型现有性能,同时将更新聚焦于机器人操作预测。我们将学习率调整为 ,执行 50 个训练周期。
3.3 与其他方法的性能比较
3.3.1 CALVIN 仿真环境
实验设置:我们在 CALVIN 基准测试的四种不同设置下评估我们的方法,包括:1)完整数据集多任务学习 2)未见场景泛化 3)数据高效的少样本学习 4)未见指令语言的泛化能力
训练数据:包含“A”、“B”、“C” 和 “D” 四种场景,共 34 种特定指令。我们采用连续完成 1、2、3、4 和 5 个任务的成功率,以及成功完成任务的平均长度作为评估指标。
▲ 表1:CALVIN 基准测试性能对比。加粗表示最优结果,下划线表示次优结果。
1)完整数据集多任务学习:
如表 1 中“实验 ABCD→D” 所示(参考先前研究),我们在四种不同场景下训练模型,并在特定场景 “D” 上进行评估。我们的方法全面超越所有基线方法,平均成功率提升 + 1.2%,证明了引入显式人类手部关键点进行机器人操作的设计有效性。
2)未见场景泛化:
如表 1 中“实验 ABC→D” 所示,我们在三种场景(“A”、“B” 和 “C”)上训练模型,并在场景 “D” 上进行评估。
得益于微调阶段的人类视频回放设计,我们的方法性能大幅提升(平均成功率从 61.2% 提升至 65.9%),相比先前的当前最佳(SOTA)方法表现出显著优势。这表明我们的关键点 VLM 预训练和类比推理模块在不同场景间具有强大的泛化能力。
▲ 表2:真实机器人实验结果
▲ 表3:在 ABCD→D 设置下仅使用 10% 训练数据的高效少样本学习
3)数据高效的少样本学习:
如表3所示,我们仅使用原始小规模数据集的 10% 进行训练。在此极端少样本设置下,我们的方法全面超越所有基线模型,将完成 5 个任务的成功率提升至 45.6%,成功完成任务的平均长度提升至 2.28。
结果表明,我们的类比推理机制能够建立一个 “Map”,将人类关键点中蕴含的丰富多样的动作模式,迁移到稀缺的机器人操作数据中,从而使机器人能够快速学会应对不同任务。
▲ 表4:在 ABCD→D 设置下的未见指令语言泛化能力
4)未见指令语言的泛化能力:
如表 4 所示,我们在训练中未见过的指令语言上评估模型性能。我们的方法持续取得当前最佳(SOTA)表现,表明相关的人类动作示范能显著帮助机器人泛化到多种全新的指令任务。
3.3.2 真实机器人实验
1)物体搬运任务:已见物体:机器人在两种干扰场景下成功搬运了三种训练过的物体(橙子、苹果、青枣):场景一包含干扰物(番茄、玉米、黄桃);场景二背景发生改变(木板、碗)。
未见实例:评估了模型对同类物体新实例(不同外观的橙子、苹果、青枣)的泛化能力。未见类别:测试了模型对未训练类别物体(番茄、黄桃)的泛化能力。
定量结果(见表2)示,AR-VRM 显著优于基线方法(RT-1,MT-R3M,GR-1)。基线方法常因选错/放错物体或发生碰撞(如与托盘/桌面)而失败。相比之下,AR-VRM 在已见物体上保持了高成功率,且在未见实例上性能下降极小,凸显了其强大的同类泛化能力。
2)关节式操作任务:
AR-VRM 在抽屉开合任务中同样大幅超越基线方法,展现出卓越的鲁棒性。但实验中也观察到两种失败模式:在关闭任务中偶尔出现抽屉未完全关严;在开启任务中偶有未能成功抓住把手的情况。尽管如此,其整体性能仍远超现有方法。
3.4 本方法消融研究与可视化分析
▲ 表5:所提模块的有效性验证
3.4.1 所提模块的有效性验证
如表 5 所示,我们对所提出的各个模块进行了消融实验。
第 1 行:表示不进行任何预训练,也不利用人类动作视频的指导,直接使用机器人数据训练 VLM。由于缺乏大规模数据,其性能有限。
第 2 行:引入基于手部关键点的人类动作视频预训练后,VLM 获得了视觉-语言理解能力,性能得到显著提升。
第 3 行:表示在微调阶段通过检索引入人类动作视频,但仅训练独立的关键点预测头,而非学习用于指导机器人状态预测的类比映射。该方法有助于保留预训练阶段学到的知识,防止在小规模机器人数据上过拟合,因此相比第 1 行有性能提升,但仍有改进空间。
第 4 行:代表我们完整的方案,即结合大规模数据的关键点 VLM 预训练,以及利用检索到的人类动作视频和类比推理进行微调。该方案取得了最佳结果,充分证明了我们所提各模块的有效性。
▲ 表6:类比推理微调设计选择的消融研究
3.4.2 类比推理微调的设计选择分析:
如方法部分所述,我们在类比推理适应过程中冻结关键点编码器/预测头,仅微调 VLM。表 6 的结果表明:冻结 VLM(第 1 行 vs 第 4 行,第 2 行 vs 第 3 行)会导致性能显著下降,证实了 VLM 微调对于将人类知识迁移到机器人至关重要。
冻结关键点模块(第 1 行 vs 第 2 行,第 3 行 vs 第 4 行)能提升性能,原因可能是稳定的关键点特征有助于类比映射的收敛,从而改善人手与机器人部件之间的对齐。
▲ 图3:机器人操作示例:基于检索的人类动作视频与动作预测结果
3.4.3 预测结果可视化:
如图 3 所示,我们以“从抽屉中抓取蓝色方块”这一机器人操作任务为例。我们的方法从数据库中检索到相关的人类动作视频,例如“从抽屉中拿起工具/收据/布料/刀具”。通过模仿人类从抽屉中拿取物体的动作(包含接近抽屉和抓取物体的过程),机器人能够成功遵循语言指令,完成对蓝色方块的抓取。
▲ 图4:类比映射可视化:(a)人手关键点编码(b)机器人可见部件编码(c)学习到的类比映射
3.4.4 类比映射的可视化:
如图 4 所示,我们展示了从人手关键点到机械臂部件的类比映射(analogical map)的部分示例。该映射以列归一化的方式呈现,用以显示预测的人手关键点与可见的机械臂部件之间的关联程度。
关键点节点和机械臂部件节点的编码分别在子图(a)和(b)中进行了说明。在子图(c)中,用红色圆圈高亮的映射元素表示两个节点之间存在强关联。
可视化结果表明:机器人的夹爪与人手执行抓取操作时的指尖有很强的关联性。机械臂的根部连杆则与决定运动方向的人手掌相关联。这一可视化结果直观地证明,我们的方法通过类比推理,成功学习到了一种合理的、功能对等的映射关系,能够有效地将人类动作的精髓迁移并用于指导机械臂的操作。
总结
为从视频中探索人类交互过程的关键信息以指导机器人操作,我们提出了基于类比推理的视觉机器人操作(AR-VRM)方法。该方法利用大规模人类动作视频数据集,通过手部关键点显式地学习人类动作知识。
我们设计了一种关键点预训练方案,以增强模型的泛化能力与性能。通过类比推理机制建立人手关键点与机器人部件之间的映射关系,我们的方法在 CALVIN 基准测试和真实机器人实验中均取得了当前最佳(SOTA)结果,尤其在少样本数据场景下表现突出,充分验证了该方法的有效性与卓越的泛化能力。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·