一个对多任务灵巧操作大型行为模型的检验

三谷秋水

于 2025-07-31 00:15:00 发布

阅读量669

点赞数 25

CC 4.0 BY-SA版权

分类专栏：人工智能机器学习智能体文章标签：人工智能机器人深度学习机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/149774407

智能体同时被 3 个专栏收录

594 篇文章

订阅专栏

机器学习

575 篇文章

订阅专栏

人工智能

437 篇文章

订阅专栏

25年7月来自 TRI 的论文“A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation”。

近年来，机器人操作取得长足的进步，模仿学习策略使得人们能够成功完成灵巧且难以建模的任务。同时，数据和模型规模的扩展促进功能强大的语言和视觉基础模型的开发，从而激发人们大规模地努力创建通用机器人基础模型。虽然这些模型已经获得极大的热情和投入，但对现实世界性能进行有意义的评估仍然是一个挑战，这既限制了开发速度，也阻碍了对现有能力的细致理解。

本文在模拟和现实世界机器人数据集上扩展扩散策略范式，严格评估多任务机器人操作策略，即大型行为模型 (LBM)。其提出并验证一个评估流程，以便以统计置信度严格分析这些模型的能力。在受控环境中通过盲目随机试验，使用模拟和现实世界实验，将这些策略与单任务基线进行比较。与单任务基线相比，多任务预训练能够提高策略的成功率和鲁棒性，并能够使用更少的数据更快地教授复杂的新任务。此外，随着预训练规模和多样性的提升，性能也随之显著提升。

如图所示：大型行为模型 (LBM) 是基于多样化的模拟和现实世界操作数据语料库训练的视觉运动策略。通过精心设计的评估流程，结合模拟和现实世界实验，证明经过微调的 LBM 对分布偏移具有更强的鲁棒性，并且比单任务基线方法具有更好的性能。此外，在对新任务进行微调时，LBM 只需使用少量数据即可达到与基线方法相同的性能。

请添加图片描述

机器人学习的规模化

受自然语言处理 [14]、[15] 和计算机视觉 [10]、[13] 中成功应用扩展假设的启发，机器人学习正在经历一场范式转变，朝着创建通用操作策略 [2]、[4]–[9] 的方向发展。这种转变的驱动力源于大规模多样化数据集 [16]–[18] 以及高容量模型的创建，尤其是基于 Transformer 的视觉-语言-动作 (VLA) 模型 [4]、[19]–[25]。这些模型已成为核心，将感知、语言和动作整合到一个统一的框架中，这些框架主要通过模仿学习进行训练。VLA 性能提升的一个关键驱动因素是从大型预训练基础模型 [26] 迁移知识，从而带来语义理解、改进的推理能力和强大的视觉表征，这些模型在机器人数据集上进行微调后，可以实现零样本任务执行等功能。动作表征的选择——无论是离散化为token [27]–[29]，直接回归为连续命令 [2]，还是通过扩散模型生成 [4], [5]——都会影响策略产生精确、多模态和实时行为的能力。尽管在训练通用策略方面取得进展，但诸如灾难性遗忘、数据异质性、高质量数据稀缺、多模态融合、处理灵活性以及保持实时推理速度等挑战仍然是悬而未决的研究问题。本研究专注于严格评估多任务预训练的效果（而不是例如架构创新），并自始至终研究一个固定的策略架构。

机器人学习数据集

训练通用机器人策略需要大规模、高难度的挑战。与通常来自互联网的大规模语言和视觉数据集 [11]、[15]、[30]–[35] 不同，在现实世界中收集机器人数据本质上既缓慢又昂贵。机器人数据最常见的收集方式是通过遥操作，即人类操作员远程控制机器人，从而获得高保真度、特定于具体化的数据。诸如 RT-1 [28]、Bridge [36]、RH20T [37]、DROID [16] 和 AgiBot [38] 等大型数据集就是通过这种方法收集的，这些数据集通常需要数月甚至数年的时间，并且由多个机器人参与。像 Open X-Embodiment [17] 这样的汇集数据集汇集来自众多实验室的遥操作和其他类型的机器人数据（超过 100 万条轨迹和 22 个具体化），希望能够训练出能够受益于跨机器人具身迁移的策略。模拟 [39]–[41] 提供了一种经济高效地生成大规模机器人操作数据的有前景的替代方案 [42]–[45]；然而，模拟器与现实世界之间的差异带来了挑战。克服这些差异的一种方法是同时对来自两个域的数据进行训练（“协同训练”）[46], [47]。

本研究使用模拟和真实协同训练，以便更有效地评估在模拟中主要基于真实数据训练的 LBM。另一种快速且经济高效地收集数据的方法是通过使用由人手动控制的专用设备来完全规避对机器人的需求 [48]– [51]。本研究用混合数据训练 LBM，这些数据来源于公开数据集、在现实世界（使用遥控机器人和专用设备 [48]）以及模拟环境中的内部数据收集工作，旨在更好地理解在这些大规模多任务数据集上进行训练的价值。

机器人操作策略评估

无论是出于研究目的还是实际部署，衡量 LBM 的性能都需要可重复、可靠且可扩展的评估方法和框架 [52]。由于缺乏标准化硬件，一致性基准测试成为一项挑战。因此，大多数基准测试都是基于模拟的，一些著名的示例包括 RLBench [45]、ManiSkill [53]、Meta-World [54]、Robosuite [55]、BEHAVIOR [56] 和 RoboTHOR [57]。这些基准测试的评估通常依赖于成功率、任务完成百分比和完成时间等量化指标，并强调泛化能力（例如，泛化到未见过的物体、任务或场景）或样本效率。虽然先前的导航研究强调由动态和视觉差异引起的模拟与现实之间的差距 [57]–[59]，但由于机器人与环境耦合更紧密，以及任务结果对细微变化的敏感性，操作策略的评估带来额外的挑战。SIMPLER [60] 是一个最新的模拟框架，它通过使用系统识别 [61]、[62] 以及各种图像编辑和匹配技术，减轻真实环境与模拟环境之间的控制和视觉差异。其他现实世界评估方法侧重于建立标准化的目标集、任务、数据集和评估协议 [63]–[70]、对共享机器人的远程访问 [71]–[73]，或提高评估效率 [74], [75]。尽管取得一些进展，但在评估跨多种不同任务的通用机器人操作策略、可靠地对复杂的长视域交互进行基准测试以及评估动态环境中的鲁棒性和安全性关键方面仍然存在挑战。

评估协议与分析

本文设计了一个评估协议，旨在确保初始条件可重复且多样化，并保证候选策略之间的公平性。用统计工具在模拟和现实世界中评估假设。

策略比较协议：注重在不同策略（单任务模型 vs. LBM）之间进行公平比较，也就是说，尽一切努力最小化偏差，并使不同的策略接受相似的测试条件，包括环境条件和初始条件。为此，在所有评估中，评估人员都不知道正在测试哪个策略（盲测），策略顺序随机化以最大限度地提高每个策略的公平性，并且所有策略的初始条件在硬件人为误差范围内保持一致[52]。

在模拟中，对所有被比较的策略使用相同的模拟参数和初始条件（通过随机种子设置）。初始条件从生成相关训练数据的同一分布中采样，除非明确测试分布外的泛化能力，但这些初始条件是来自训练分布的新样本——不会在模拟训练和评估之间重复使用完全相同的初始条件。
为了确保在硬件上评估策略时的公平性，将评估拆分为多个测试包，每个测试包的大小等于要比较的策略数量。每个测试包对应一个初始条件，策略顺序随机化。在评估每个策略后，将重置初始条件进行评估。现实世界的评估是盲测的——确保评估者在每次运行中都不知道正在评估哪个策略。为了确保测试条件的一致性，以随机顺序在测试包中运行策略可以减轻环境变化（例如光照）对策略性能的影响。

对于初始条件，创建一个工作流程，其中为机器人评估者提供所需视觉场景的图像叠加（如图所示）；通过将机器人环境与叠加层进行匹配，降低初始条件的不确定性。如果任务和条件是在模拟中建模的，则初始条件来自模拟；如果是真实世界任务，则初始条件来自初始机器人场景的真实图片。

请添加图片描述

2）评分标准和谓词：评分标准是机器人评估员在观察机器人行为时填写的一组问题。这些问题涉及任务进度（例如，“机器人抓住了苹果”）和失败情况（例如，“机器人掉了苹果”）。这些问题是二元的是非题，可以通过统计分析来加深对策略性能的理解。评分标准包含每个任务的一组里程碑问题，每个里程碑都是迈向成功部署的必要步骤。通过为成功完成的里程碑分配+1积分，否则分配0积分，然后将积分相加并除以里程碑数量来计算实际部署的任务完成率。

模拟中的策略评估是通过在模拟状态下定义的谓词自动完成的（例如，当苹果中心距离垃圾箱中心的距离小于一个小阈值时，谓词为真）。模拟中的成功对应于一组谓词为真。这些谓词还能够分析该策略的部分成功和失败模式。

Rubric QA：考虑到评分标准结果是由容易出现人为错误的审阅者提供的，通过对报告的评分标准答案的较小子集进行额外验证来估算差异百分比。为此，对近 2700 个真实世界评估案例中的 ∼ 27% 进行一轮质量保证 (QA)，以估算答案中的差异。进行评分标准质量保证的人员子集与机器人评估员分开。QA 成功率差异为 2.31%，整体评分标准问题差异为 6.25%。

根据记录的成功率与基于评分标准计算出的成功率之间的差异进行一轮修正。这涉及更新五个案例。

统计分析：单个策略的性能表征：本文分析基于二元成功/失败，以及更具挑战性、更长期任务的任务完成情况。

a) 二元成功/失败标准：从统计学角度来看，计算策略的成功率等同于估计生成成功/失败标签的底层伯努利（Bernoulli）分布的伯努利参数 𝑝。这假设每次评估试验都是独立同分布的（i.i.d.）。在模拟中，通过使用种子随机化初始条件来满足此假设。对于现实世界的实验，采取前面讨论的一系列措施，以尽可能减轻时变随机性和不必要偏差的影响。

在某些情况下，这里统计结果是对多个任务进行汇总的。严格来说，这违反独立同分布。假设，因为每个任务的试验次数是先验固定的，而不是从 3 个任务的均匀分布中随机抽取的。尽管如此，这种违反的影响在实践中可以忽略不计，并且是先前策略评估工作中的推荐做法 [76]。为了可视化未知参数 𝑝 的不确定性，执行贝叶斯分析并在观察成功/失败数据后计算后验。具体而言，按照 [52] 的建议对伯努利参数使用均匀先验，并将贝叶斯后验绘制为小提琴图。用小提琴图而不是标准置信区间 (CI) 有两个原因。首先，小提琴图描绘参数 𝑝 的整个分布而不是单个区间，从而呈现了有关统计不确定性更丰富的信息。其次，在策略比较中，CI 可能会造成混淆或误导；如果两个结果对应的 CI 重叠，人们可能会错误地认为它们之间没有统计学显著差异 [77]。事实上，CI 可以重叠，但更强大的假设检验仍可能在统计学上区分它们。

b) 任务完成标准：对于基于规则或谓词的任务完成标准，与伯努利情况不同（即方差和其他高阶矩并非由均值唯一确定），相应分类分布的均值可能无法代表整个分布。因此，展示原始数据的小提琴图，而不是均值的贝叶斯分析，以便更好地说明完整分布。将仅利用分布的均值来 a) 检验分数微调的效果，和 b) 比较两种或多种策略的性能。对于 a)，用类似于二元成功/失败设置的一个均匀狄利克雷（Dirichlet）先验。对于 b)，下文讨论。

统计分析：多种策略的性能比较：进行假设检验来比较多种策略；运行𝑘(𝑘 − 1)/2 次成对检验，其中𝑘 是一次需要比较的策略模型数量。在每次检验中，除非另有说明，否则都会通过 Bonferroni 校正来调整置信水平以适应多重性，从而在所有𝑘(𝑘−1)/2 次比较中保持全局 95% 的置信水平。用 CLD 算法 [78] 来总结结果。在 CLD 中，每个策略都标有一个或多个字母，例如“a”、“ab”或“bc”。两个不具有相同字母的策略以 95% 的置信度被区分。

对于每个成对检验，根据数据类型使用适当的统计方法。对于更常见的二元成功/失败标准，使用 [75] 中建议的顺序假设检验框架，该框架顺序比较每次评估试验的配对结果，直到做出决策或所有试验都完成。具体而言，采用 [79] 中最初提出的检验方法，该检验方法在小样本量条件下具有合理的统计功效，同时对二元数据保持严格的 I 类错误控制。（也就是说，错误地得出两个策略在统计上分离的结论的概率上限为 5%）。对于任务进度，不能应用 [79]，因为它不易扩展到分类数据。相反，使用 Welch t-检验 [80] 来比较两个分布的均值。严格来说，数据的离散性违反 t-检验的基本假设，即数据服从正态分布。因此，I 型错误不受控制。但是，其确保样本量足够大（例如，约 50 或更多），以便由于中心极限定理，违反程度较小。名义上，上述策略比较程序是针对每个任务执行的。当同时考虑并绘制多个任务时，不会进一步调整单个成对检验的置信水平，因为这样做会导致单个置信水平过于严格。因此，当所有任务都呈现在一个图中时，I 型错误并非在各个任务之间得到全局控制。然而，当比较不同策略的整体多任务性能时，会汇总各个任务的结果。这产生一个可交换的伯努利序列，通过边际化技能来近似独立同分布序列。可交换性弱于独立同分布，因此成对检验的基本假设略有违反。然而，通过实证验证这种差异并不影响结果的统计有效性。

大型行为模型

LBM 架构概览见图所示：

请添加图片描述

为视觉运动控制的扩散：用去噪扩散隐式模型 (DDIM) [82] 实现视觉运动控制的生成策略。之所以选择这类生成模型，是因为它已被证明能够有效地从人类演示中学习视觉运动操控策略 [1]。DDIM 将简单的先验分布（通常是高斯噪声）转换为复杂的、结构化的（动作）分布，该分布以输入数据为条件——在本文例子中，输入数据是视觉、本体感受和语言观察。这种转换使用源自去噪扩散概率模型 (DDPM) [83] 的确定性采样过程。给定 𝐾 ≥ 1 个去噪步骤，从时间 𝑡 的噪声样本 𝐴_𝑡^𝐾 ∼ N(0, 𝐼) 开始，并使用 DDIM 在 K 个迭代步骤中将其去噪为连续动作 𝐴_t⁰。为了预测基于观察输入的动作，修正原始的 DDIM 更新过程。

𝜖_𝜃 是一个权重为 𝜃 的噪声预测神经网络。为了训练 𝜖_𝜃，采样一个动作 A_t⁰ 和一个随机步长 k，并添加一个与步长相关的高斯噪声 𝜖_k，形成一个带噪声的动作 A_t^k。然后，该网络被训练从 A_t^k 预测 𝜀_k，使其能够在整个扩散级别范围内进行去噪。从数学上讲，针对 𝜃 优化 DDPM 损失。

策略架构：参数化噪声预测网络 𝜖_𝜃，它以从观测中提取的特征和预测动作的扩散时间步长为条件。为了从图像观测中提取特征，用预训练 CLIP Vision Transformer (ViT) 主干网络 [11] 的 CLS token 输出。语言特征同样使用 CLIP 文本编码器从任务描述中计算得出，并在池化的序列结束 token 之上添加一个投影层。语言和视觉特征与每个观测时间步长的本体感觉以及扩散时间步长 𝑘 连接在一起，后者采用正弦位置嵌入 [83] 编码，然后使用两层 MLP。在训练期间，通过视觉特征提取器进行微调，该提取器在所有摄像头输入中共享。保持语言特征提取器不变，但在语言特征之上训练一个投影层。

DiT 的条件是两个时间步长的串联观测特征，总大小为 6,732，并通过自适应层范数 (adaLN) MLP [81] 编码扩散时间步长。该模型由 8 个 DiT 块组成，嵌入大小为 768。该网络预测 16 个时间步长的 20 维动作，总输出大小为𝐴_t = 320。所有实验均采用上述架构。在对单任务数据进行微调或评估从零开始的策略时，用相同的架构，并且仅使用所选任务的语言提示。

训练与部署：训练方案遵循基础模型的通用模式，即首先在完整数据集上预训练策略，然后在较窄的数据子集上进行微调 [14]、[15]、[29]、[35]、[84]。用一个完整数据集进行预训练。训练期间，首先将图像大小调整为 256x342，然后随机裁剪并应用颜色抖动，最终得到 224x224 的图像。训练 48k 步，全局批次大小为 2560，恒定学习率为 3e-4。视觉编码器的学习率为模型其余部分的十分之一。

根据各个任务的演示对预训练策略进行微调。模拟任务的训练中最佳检查点，通常比真实任务的训练中出现得更早。因此，针对实际任务微调 30k 步，针对模拟任务微调 1将协同训练、交替学习率策略以及选择最佳预训练和微调检查点的策略留待后续工作。在微调过程中，用与预训练期间相同的图像增强超参。

虽然在训练期间计算 16 个动作步骤的损失，但在部署期间，仅执行 8 个时间步，然后重新计算动作 [1]。与训练过程中一样，图像尺寸被调整为 256x342，但随后中心裁剪为 224x224，而不是随机裁剪。策略循环的执行频率为 10 Hz。

实验细节

DryingRack (D) 场景包含盘子、马克杯和锅铲，以及马克杯架、餐具罐和碗碟干燥架。该场景包含 13 项任务。Shelf (S) 场景包含各种水果和蔬菜、架子、水果碗、垃圾桶、麦片盒和砧板。该场景包含 12 项任务。Breakfast (B) 场景包含各种水果、马克杯、盘子、杯垫和杯子。由于不同任务的初始条件在视觉上相同，因此该场景专为测试语言条件反射而设计。该场景包含 18 项任务。Kitchen (K) 场景包含垃圾桶、各种水果和蔬菜以及盘子。场景 K 包含 5 项任务，并且是预训练数据集中唯一完全缺失的场景。该场景中的所有任务都是长视域的，有些任务需要非理解性的操作或对语义属性的理解（例如，蔬菜 vs 水果，大 vs 小）。与前两个场景相比，场景 B 和 K 的场景复杂度略低。第五个场景 (0) 用于在训练初期调试策略，仅包含一个任务：机器人需要将一个箱子移动到桌子中央。此场景不用于评估，但其演示数据包含在预训练数据集中。

预训练数据

预训练混合数据集 Ramen，包含一个大规模机器人演示数据集，总计约 1695 小时，包括在 TRI 收集的高质量数据（约 545 小时；TRI-Ramen）以及精选的外部机器人数据（约 1150 小时；OXE-Ramen）。

TRI-Ramen 数据包含 532 项任务的总计 545 小时真实数据，共计 64,262 次演示。它由以下数据组成：TRI-Ramen-Real - 468 小时，362 个任务和 46,063 次演示，收集自 9 个硬件站；TRI-Ramen-Sim - 45 小时，41 个任务和 7,348 次演示，收集自 2 个模拟站； TRI-Ramen-UMI（32 小时，129 个任务，10851 次演示）使用通用操作接口 [48] 收集，使用了 7 对手持设备在“野外”环境中进行。

预训练集中使用的 TRI-Ramen-Sim 任务排除场景 K 中的所有五个任务，以及场景 D、S 和 B 中各一个任务。

对于预训练集中场景 D、S 和 B 中的 40 个模拟任务，收集相同任务在相似环境中（不同机器人队硬件可能存在差异）对应的真实世界演示。场景 B 任务的初始条件与模拟中的初始条件一致。场景 D 和 S 任务的初始条件是手动创建的。这些是 TRI-Ramen-Real 的一部分（即它们也是预训练集的一部分）。在真实世界数据收集过程中，将每个任务的演示均匀分布在 2 到 4 个机器人工作站上，每个工作站大约产生 100 个演示。对于每个任务，用于收集真实数据的工作站之一就是模拟环境所模仿的机器人工作站。

OXE-Ramen 数据是 OpenX-Essential 数据集的一个子集。该子集的选择基于一系列启发式算法，例如目标和环境多样性以及事件总数。观测值和动作被映射以符合 TRI-Ramen 数据格式。映射包括参考框架和末端执行器姿态和夹持器宽度单位的标准化，以及图像大小调整和裁剪。

在训练过程中，通过一组经验得出的权重对 Ramen 数据集进行批次平衡，以确保每个批次包含所有数据集的样本。

评估任务

评估任务分为两类：“见过”和“未见过”，具体取决于它们在预训练期间是否出现在 TRI-Ramen 数据集中。对于模拟评估，从 TRI-Ramen-Sim 中随机选择 16 个“见过”任务和 8 个“未见过”任务，这些任务均属于 lbm 评估。对于真实世界评估，选择 3 个“见过”任务和 5 个“未见过”任务，其中 3 个“见过”任务属于模拟“见过”任务，即它们具有匹配的模拟和真实数据演示。示例评估任务如图底部所示（图顶部左是实验平台，右是评估设置）。

请添加图片描述