XRoboToolkit —— 基于 PICO 4 Ultra 的机器人遥操作方案（一）-CSDN博客

视觉-语言-动作模型（Vision-Language-Action models）的快速发展催生了对大规模、高质量机器人演示数据集的迫切需求。尽管遥操作是数据采集的主要方法，但现有方法存在可扩展性有限、设置流程复杂以及数据质量不佳等问题。本文提出XRoboToolkit，这是一个基于OpenXR标准的跨平台扩展现实（XR）机器人遥操作框架。该系统具备低延迟立体视觉反馈、基于优化的逆运动学算法，并支持多种跟踪模态，包括头部、控制器、手部及辅助运动追踪器。XRoboToolkit的模块化架构可实现跨机器人平台与模拟环境的无缝集成，涵盖精密机械臂、移动机器人及灵巧手等场景。我们通过精密操作任务演示了该框架的有效性，并通过训练展现出 robust 自主性能的 VLA 模型来验证数据质量。

@article{zhao2025xrobotoolkit,
title={XRoboToolkit: A Cross-Platform Framework for Robot Teleoperation},
author={Zhigen Zhao and Liuchuan Yu and Ke Jing and Ning Yang},
journal={arXiv preprint arXiv:2508.00097},
year={2025}
}

一、引言

近年来，深度生成式机器人学习[1]，尤其是视觉-语言-动作模型（VLAs）[2, 3, 4, 5]的进展，高度依赖于包含机器人技能演示的大规模高质量数据集。机器人遥操作[6, 7, 8, 9, 10]是生成复杂操作和移动任务人类演示的主要方法之一，利用人类操作员在不同环境和任务中自然具备的泛化能力。

近期机器人遥操作框架遵循多种范式，每种范式均存在明显的权衡取舍。领导者-跟随者方法[11]具有低延迟和直观操作的优势，但需要针对特定机器人平台定制专用硬件，这限制了其可扩展性和普适性。基于视觉的遥操作系统[12]在不同机器人硬件上具备更高的灵活性和普适性，但常因跟踪性能不稳定和延迟较高而导致操作员性能和数据质量下降。虚拟现实（VR）或扩展现实（XR）遥操作[13, 14, 15, 16]作为一种有前途的替代方案，利用商用头显创建具有立体视觉反馈的直观控制界面，可在多个平台上通用。然而，现有XR解决方案仍难以配置，且常依赖于独立的Unity SDK或WebXR平台，这会引入额外的延迟和兼容性挑战。另一个重大限制是XR设备与机器人控制器之间缺乏标准化数据格式，这使得新XR设备或机器人平台的集成工作量巨大。

为了解决这些限制，我们推出了XRoboToolkit —— 一个全面的跨设备软件开发工具包和应用程序套件，用于通过XR设备实现实时机器人遥操作。该工具包提供了一个通用接口层，通过采用XR侧的OpenXR [17] 规范以及机器人侧的模块化、可扩展的Python和C++接口，解决了标准化挑战，实现了跨机器人平台的无缝集成。当前支持的设备包括PICO 4 Ultra和Meta Quest 3等。

一项重大贡献是立体视觉反馈系统，该系统集成了低延迟通信协议和高效视频流传输管道，两者均经过优化以最大限度地减少延迟并降低晕动症。

在机器人端，该系统采用基于二次规划（QP）的逆运动学求解器（IK），可生成平滑、可靠的机器人运动轨迹，尤其在接近运动学奇异点时表现优异，并集成灵巧手部跟踪功能，可将人类手部动作重新映射至机器人手部，以实现精细操作任务。XRoboToolkit的模块化架构支持与各类机器人系统及仿真环境的便捷集成，已在UR5和ARX R5机械臂、Galaxea R1-Lite移动操纵器、Shadow灵巧手等平台上进行测试，并原生支持MuJoCo [18]。

第二章详细介绍了XRoboToolkit的架构。第三章展示了示例应用程序，第四章进行了性能评估，第五章得出了结论。

二、遥操作系统

2.1 概述

图1：XRoboToolkit概述，这是一个将XR与机器人技术相融合的综合性框架。其核心功能包括实时遥操作和立体视觉。绿色方块代表XR侧的组件，而蓝色方块则表示机器人侧的组件。

图1展示了XRoboToolkit架构的概述。部署在XR头显上的XRoboToolkit-Unity-Client应用程序捕获姿态跟踪数据，并为人类操作员提供立体视觉界面。这些姿态跟踪数据包括头部、手部、控制器、全身以及物体跟踪（通过运动跟踪器），通过C++编写的XRoboToolkit-PC-Service传输至机器人客户端。具体跟踪数据格式在第2.2节中进行讨论。此外，XRoboToolkit-PC-Service-Pybind 包允许在 Python 中直接访问 XR 跟踪数据，无需处理原始数据结构。立体视觉可通过 PICO 头显的内置摄像头或外部 ZED Mini 摄像头实现，具体模块为 XRoboToolkit-Robot-Vision。逆运动学（IK）和灵巧重定位求解器在机器人遥操作模块XRoboToolkit-Teleop-Sample-Python中实现，以支持模拟环境（如Mujoco）和物理机器人平台（包括UR5、ARX R5和Galaxea R1-Lite）。XRoboToolkit 的模块化架构便于与其他模拟器和机器人平台的集成，为虚拟和物理环境中的立体远程操作提供灵活且可扩展的解决方案。

2.2 数据流传输

XRoboToolkit-PC-Service 采用异步、回调驱动的架构，实现从 VR 硬件到客户端应用程序的实时数据流传输。通信通过专用的 SDK 进行管理，该 SDK 负责连接到流媒体服务并接收数据负载。

XR 数据格式：遵循 OpenXR 规范，所有位置和旋转数据均采用右手坐标系，其中 X 轴向右，Y 轴向上，Z 轴向后，如图 2(a) 所示。当应用程序启动时，原点被设置为用户的头部位置。6 自由度（DOF）姿态数据以七个用逗号分隔的浮点数格式表示：3D 位置向量 [x,y,z] 随后是四元数 [qx,qy,qz,qw]。

所有实时跟踪数据均以单个 JSON 对象的形式以 90 Hz 的频率传输。此设计简化了客户端解析过程，并确保无论启用何种跟踪功能，数据结构均保持一致。表 I 概述了 XRoboToolkit 中主要跟踪数据字段。

类型	字段	描述
Head（头部）	pose（姿态）	Headset pose（头戴设备姿态）
	status（状态）	Tracking confidence (0: unreliable, 1: reliable)（跟踪置信度（0：不可靠，1：可靠））
	handMode（手部模式）	Input mode (0: None, 1: controller, 2: hand)（输入模式（0：无，1：控制器，2：手部））
Controller（控制器）	pose（姿态）	Controller pose（控制器姿态）
	axisX, axisY（轴X，轴Y）	Joystick position（摇杆位置）
	axisClick（轴点击）	Joystick press state（摇杆按下状态）
	grip（握持）	Grip input（握持输入）
	trigger（触发器）	Trigger input（触发器输入）
	primaryButton（主按钮）	X Button (L), A Button (R)（X按钮（左），A按钮（右））
	secondaryButton	Y Button (L), B Button (R)
	menuButton	Menu (L), Screenshot/Record (R)
Hand	isActive	Tracking status (0: not active, 1: active)
	scale	Hand scale factor
	HandJointLocations	Array of 26 hand joint data entries
Whole-Body	joints	Array of 24 body joint data entries
Motion Tracker	p	Pose
	va	Velocity & angular velocity
	wva	Acceleration & angular acceleration
	sn	Unique serial number of tracker

头部追踪：头部追踪数据包含头戴设备姿态、表示追踪信心的状态整数，以及指定活动输入模式的手部模式整数。

控制器追踪：控制器追踪功能可同时捕捉左右手柄的姿态，并记录按钮和摇杆的状态。摇杆轴axisX和axisY提供-1到1之间的浮点数值。握把和扳机输入为模拟控制，数值范围为0到1，表示压力强度。其余按钮提供二进制状态信息。

手势追踪：每个手势通过26个关节姿势进行表示：大拇指上有4个关节，每个剩余手指上有5个关节，再加上手掌和手腕关节，如图3(a)所示。手部追踪数据包括追踪质量、缩放因子以及每只手26个关节数据的数组。每个数据项包含6自由度姿态，并附带追踪状态和关节半径等元数据。尽管手部追踪数据以90 Hz的频率与JSON对象一同传输，但受摄像头限制，其实际更新频率为60 Hz。

全身动作捕捉：全身关节追踪包含24个关节数据点，对应人体模型的主要关节，如图3(b)所示。每个数据点包含关节姿态、速度和加速度。该24关节模型遵循PICO标准，因OpenXR目前尚未制定标准化全身模型规范。

运动追踪器：对于PICO 4 Ultra头显，我们支持辅助运动追踪器的物体追踪模式。运动追踪器数据可捕获姿态、速度和加速度测量值，并附带追踪器序列号用于识别。

2.3 机器人控制

机器人控制模块通过不同的控制模式将XR跟踪状态映射为机器人命令：IK用于机械臂控制、灵巧手重新定位、头部跟踪和移动底盘控制。

2.3.1 逆运动学

对于机械臂控制，我们基于PlaCo [19]实现了一个基于QP的逆运动学求解器，该求解器基于Pinocchio刚体动力学库[20]。QP问题定义为：

$\begin{array} { c } { \displaystyle \operatorname* { m i n } _ { { \bf { \bar { q } } } } \ \sum _ { i = 1 } ^ { N } { \bf w } _ { i } \| { \bf J } _ { i } ( { \bf q } ) { \bf \dot { q } } + { \bf e } _ { i } ( { \bf q } ) \| ^ { 2 } } \\ { \displaystyle \ s { \mathrm { . t . } } \ l \leq { \bf C } ( { \bf q } ) { \bf \dot { q } } \leq u , } \end{array}$

其中，𝐪 代表机械臂构型；每个任务 i 被定义为残差函数 $\mathbf { e } _ { i } ( \mathbf { q } )$ ，权重 $\mathbf { w } _ { i }$ ； $\mathbf { J } _ { i } ( \mathbf { q } )$ 表示任务雅可比矩阵； $\mathbf { C } ( \mathbf { q } )$ 代表附加约束矩阵。

基于优化的逆运动学（IK）方法能够轻松纳入约束条件和正则化项。为了提升机器人在奇异点附近的稳定性，正则化项通过最大化可操作性来实现[21]：

$m = { \sqrt { \operatorname* { d e t } ( \mathbf { J } ( \mathbf { q } ) \mathbf { J } ( \mathbf { q } ) ^ { \top } )} }$

在使用VR控制器时，末端执行器跟踪功能会在用户按下握把按钮时激活。为了提供稳定且直观的体验，系统采用相对运动方式：机器人末端执行器会跟踪控制器相对于握把按下初始状态的位移。

辅助运动追踪器可安装在用户身体的特定部位（例如肘部），以在基于QP的逆运动学（IK）中引入额外的姿态约束。这使得通过将操作员的位置映射到等效的机器人连杆，实现对机器人全身姿态的精细控制，特别适用于解决零空间冗余问题并实现类人运动。

2.3.2 灵巧手重新定位

对于灵巧操作任务，通过XR头显的手部追踪功能获取OpenXR手部模型（图3(a)）中的关键点位置。这些关键点通过以下方式映射到机器人手部关节空间：

$\begin{array} { r l } & { \displaystyle \operatorname* { m i n } _ { \mathbf { q } _ { t } } \ \sum _ { i = 1 } ^ { N } \left\| \alpha \mathbf { v } _ { t } ^ { i } - f _ { i } ( \mathbf { q } _ { t } ) \right\| ^ { 2 } + \beta { \left\| \mathbf { q } _ { t } - \mathbf { q } _ { t - 1 } \right\| } ^ { 2 } , } \\ & { \mathrm { s . t . } \ \mathbf { q } _ { l } \leq \mathbf { q } _ { t } \leq \mathbf { q } _ { u } , } \end{array}$

其中， $\mathbf { q } _ { t }$ 是时间 $t$ 时机器人手关节的构型， $\mathbf { v } _ { t } ^ { i }$ 是人类手模型的第 i 个关键点位置， $f _ { i } ( \mathbf { q } _ { t } )$ 计算相应机器人手的位置，α 是不同手尺寸的缩放系数，β 是平滑运动的正则化权重。实现使用 dex_retargeting [12]。

2.3.3 移动底座控制

对于配备全向平台的移动机械臂，移动底座通过XR控制器摇杆进行控制。左摇杆的X和Y轴分别在机器人的矢状面和冠状面上发出线性速度指令，而右摇杆的X轴则控制角速度，从而在操作任务中提供直观的移动界面。

2.4 XR Unity 应用程序

图 4 展示了 XRoboToolkit-Unity-Client 的应用程序界面，该界面包含五个面板：网络、跟踪、远程视觉、数据采集和日志。

网络面板显示头显状态的必要信息，包括序列号（SN）、IP地址、帧率、与PC服务的连接状态以及配置的服务IP。跟踪面板将控制项分为四个功能组。源组允许用户选择用于跟踪的姿势数据类型（例如头部、控制器、手部）。PICO运动追踪器组配置追踪模式：无、全身或物体。需注意，对于Meta Quest，物体追踪不可用，因为辅助运动追踪器不被支持。数据与控制组提供切换开关，用于将姿态数据传输至PC服务。状态组显示实时追踪状态。远程视觉面板管理立体视觉状态。状态字段显示当前视频流状态。XR 应用程序目前支持 PICO 4 Ultra 和 ZED Mini 相机作为流媒体源，并可通过修改 YAML 配置文件扩展其他相机源。数据采集面板启用姿势和视觉数据流的录制，支持自动本地存储和基于时间戳的索引，以便未来参考。日志面板提供实时系统诊断和监控信息，用于调试目的。

2.5 立体视觉反馈

我们的工具包目前支持两种立体视频源：PICO 4 Ultra 头显和 ZED Mini 相机。PICO 4 Ultra 作为独立解决方案运行，而 ZED Mini 则需要连接到外部计算平台（如 Windows 或 Linux 电脑，或 NVIDIA Orin 设备）以实现视频流传输。使用PICO 4 Ultra时，操作员可享受一致的视觉体验，因为显示和捕捉均通过同一硬件平台实现。

为了实现立体视觉，我们实施了一个自定义着色器，用于调整瞳距并设置焦距点在约3.3英尺处。此配置可提升三维深度感知能力，该距离被认为是遥操作任务的理想值，但需以牺牲远距离深度准确性为代价。

我们的实测结果表明，PICO 4 Ultra 的视觉质量优于 ZED Mini，尤其在色调还原、亮度、色彩准确性和动态范围方面表现更佳。此外，PICO 4 Ultra 提供更均衡的视野（FOV），水平和垂直角度分别为约 76.35° 和 61.05°，而 ZED Mini 的视野为水平 82° 和垂直 52°。

三、应用与演示

图5：XRoboToolkit的示例应用：（a）使用XR控制器进行双臂操作和移动机械臂的远程操作，（b）配备2自由度头部跟踪和立体视觉的双UR5操纵器，（c）在MeshCat可视化中用于机器人肘部控制的辅助运动跟踪器，以及（d）在Mujoco模拟中进行灵巧手部跟踪。

图5展示了XRoboToolkit在不同机器人平台和模拟环境中的通用性。该框架的模块化架构使其能够与硬件系统和虚拟环境无缝集成，支持从精确操作到移动机器人和灵巧手部控制等多种遥操作场景。如需更多信息，请参阅补充视频6。

3.1 基于XR控制器的遥操作系统

XRoboToolkit支持通过XR控制器实现直观的遥操作，适用于双臂操作系统和移动操作机器人。操作员佩戴 XR 头显，并通过手持控制器直接控制机器人末端执行器，该过程基于第 2.3.1 节中描述的逆运动学求解器。需注意，当无需立体视觉反馈时，XR 头显可挂在颈部。此配置可减轻头戴式设备重量并降低疲劳感，同时保持完整的控制器跟踪功能，特别适用于操作员可直接观察机器人工作空间的任务。

如图5(a)所示，基于控制器的遥操作已在多个平台上得到验证，包括用于双臂地毯折叠等长距离任务的双ARX R5机械臂，以及用于运输和放置任务的Galaxea R1-Lite移动机械臂。该系统还被应用于第3.2 - 3.3节中讨论的其他应用场景。

3.2 基于主动立体视觉的高精度操作

图5(b)展示了我们的双UR5系统，该系统配备了2自由度主动头部和立体视觉反馈。此配置展示了该框架在高精度操作任务中的能力。主动头部跟踪系统采用2自由度万向节，可实时跟随操作者头部运动实现偏航和俯仰旋转。滚动自由度被有意省略，以避免视觉与前庭感觉不一致引起的晕动症[22]。对于立体视觉反馈，PICO 4 Ultra头显被安装在主动头部上，作为立体摄像头系统，提供2160×810分辨率的立体视频流，帧率为60Hz。

该系统在高精度插入任务中得到验证，具体为将直径3mm的螺丝刀插入直径4mm的圆形孔中，该任务要求具备精确的空间感知能力和精细的运动控制能力，且每侧公差仅为0.5mm。

3.3 冗余机械臂控制用运动追踪器

对于冗余机械臂，可集成辅助运动追踪器以提供额外控制。图5(c)展示了通过MeshCat可视化的Unitree G1上肢运动追踪器遥操作示例。运动追踪器安装在操作员的肘部，提供仅位置追踪功能，作为7自由度机械臂的额外逆运动学约束。这种肘部跟踪功能通过以类人方式解决运动学冗余，使操作员能够以更直观的方式控制冗余机械臂，同时保持控制器对末端执行器的跟踪，从而实现更自然的机械臂配置。

3.4 灵巧手在MuJoCo中的应用

图5(d)展示了在MuJoCo模拟环境中进行的手部姿势追踪任务。与依赖XR控制器进行演示的方案不同，本方案利用头显的手部追踪模式直接捕捉手指和手部动作。该实现采用第II-C2节中描述的灵巧手重定位方法，将26关节OpenXR手部模型映射到Shadow Hand的运动学结构。手部姿态跟踪任务展示了XRoboToolkit支持灵巧操作的能力，使操作员能够通过直接手势控制执行精细操作任务，无需额外硬件设备，仅需XR头显即可实现。

四、实验

4.1 视频流传输延迟比较

一种低延迟视频流媒体解决方案被开发出来，并与Open-TeleVision [14]进行了比较评估。为了同时捕捉虚拟和现实世界的视角，使用了Kandao QooCam EGO 3D相机进行双视角录制。延迟测量使用了以100 Hz频率循环的精确计时测量LED面板。每次测量时，都会识别出点亮的LED序列，并在序列的中点处记录时间戳。延迟被定义为VR显示屏与对应的现实世界LED面板视图之间的时间偏移。视频片段使用OBS Studio进行捕获，每种条件下采样10帧以计算平均值和标准差。图6展示了测量方法和系统设置。

评估了三种条件：1) Open-TeleVision，2) ZED Mini 到 PICO 4 Ultra，以及 3) PICO 4 Ultra 到 PICO 4 Ultra。对于条件 1 和 2，ZED Mini 通过 ZED SDK 4.0.8 连接到运行 Windows 11 的笔记本电脑（Intel i9-13900HK 处理器，32 GB 内存，NVIDIA RTX 4080 显卡）。条件3未使用电脑；视频直接从PICO 4 Ultra头显流式传输。所有设备均连接至同一局域网。视频传输参数为1280×720分辨率、60帧率及1 Mbps码率，与Open-TeleVision的默认配置一致。

结果如表II所示。XRoboToolkit（ZED Mini – PICO 4 Ultra）实现了最低的平均延迟（82.00 毫秒），显著优于Open-TeleVision（121.50 毫秒）和XRoboToolkit（PICO 4 Ultra – PICO 4 Ultra）的100.50 毫秒。ZED Mini – PICO 4 Ultra配置借助外部笔记本电脑处理，其计算能力强于独立的PICO 4 Ultra头显，这可能有助于实现更优的延迟性能。PICO 4 Ultra – PICO 4 Ultra配置显示出最低的变异性（标准差STD = 3.12毫秒），表明性能更加稳定，而ZED Mini – PICO 4 Ultra和Open-TeleVision配置则显示出更高的波动性（分别为6.32毫秒和6.01毫秒）。

4.2 VLA 微调的数据采集

为了验证 XRoboToolkit 提供的远程操作和数据采集管道能否生成适合 VLA 训练的高质量演示数据，我们使用配备 RealSense D405i 手腕摄像头和 D435i 顶部摄像头的 ARX R5 双臂系统，采集了 100 个双臂地毯折叠任务的演示数据。该任务序列包括首先沿短边将地毯对折，然后沿长边再次对折，最后用右臂将地毯拉到一侧。每个演示以 50 FPS 的帧率录制，每帧包含 14 维机器人关节状态、14 维位置控制命令以及来自三台摄像头的 424×240 RGB 图像。每个遥操作演示的平均任务完成时间为 20 秒，偶尔会出现重新抓取和重新定位的行为。

该数据集用于对π0模型[3]进行低秩适应性微调。训练过程进行了80,000步，批量大小为16，动作 horizon 为50帧。生成的策略在连续运行30分钟期间实现了100%的成功率，平均任务完成时间为30秒。值得注意的是，该策略展现了适应性行为，包括当夹爪无法牢固抓取地毯时自动重新抓取，以及当地毯偏离中心时智能重新定位。

五、结论

本文介绍了XRoboToolkit，这是一个基于XR技术的机器人遥操作跨平台框架，通过低延迟立体反馈、基于优化的控制以及模块化架构，解决了现有系统中的关键限制。该框架在多种机器人平台上展现了其灵活性，并通过精确操作任务和VLA模型训练验证了其有效性。尽管XRoboToolkit在可访问性和可扩展性方面取得了显著进展，但仍存在某些限制。当前全身追踪依赖于PICO的24关节模型，因OpenXR缺乏标准化全身定义，可能导致与采用不同骨骼模型的其他XR品牌出现兼容性问题。此外，尽管提供了全身追踪数据，但尚未通过将数据重新映射到类人机器人进行全身遥操作来验证其有效性。此外，手部重新定位框架假设每个关节均可独立控制，因此无法准确重新定位至存在机械约束（如 INSIPRE 手部）的机器人手部，这些约束会耦合关节运动。该框架目前仅支持 MuJoCo 模拟，限制了其在多样化模拟环境中的适用性。

未来的工作将重点放在改进欠驱动系统的手部重新定位算法上，通过Roboverse [23]等平台扩展模拟支持，以实现多模拟器兼容性，并开发基于验证的全身运动重新定位的类人型遥操作能力[24]。此外，我们将参与OpenXR标准化工作，以实现更一致的跨平台兼容性。

参考文献

[1]J. Urain, A. Mandlekar, Y. Du, M. Shafiullah, D. Xu, K. Fragkiadaki, G. Chalvatzaki, and J. Peters, “Deep generative models in robotics: A survey on learning from multimodal demonstrations,” arXiv:2408.04380, 2024.
[2]R. Sapkota, Y. Cao, K. I. Roumeliotis, and M. Karkee, “Vision-language-action models: Concepts, progress, applications and challenges,” arXiv:2505.04769, 2025.
[3]K. Black, N. Brown, D. Driess, A. Esmail, M. Equi, C. Finn, N. Fusai, L. Groom, K. Hausman, B. Ichter et al., “π_0: A vision-language-action flow model for general robot control,” arXiv:2410.24164, 2024.
[4]M. J. Kim, K. Pertsch, S. Karamcheti, T. Xiao, A. Balakrishna, S. Nair, R. Rafailov, E. Foster, G. Lam, P. Sanketi et al., “Openvla: An open-source vision-language-action model,” arXiv:2406.09246, 2024.
[5]G. R. Team, S. Abeyruwan, J. Ainslie, J.-B. Alayrac, M. G. Arenas, T. Armstrong, A. Balakrishna, R. Baruch, M. Bauza, M. Blokzijl et al., “Gemini robotics: Bringing ai into the physical world,” arXiv:2503.20020, 2025.
[6]W. Si, N. Wang, and C. Yang, “A review on manipulation skill acquisition through teleoperation-based learning from demonstration,” Cogn. Comput. Syst., vol. 3, no. 1, pp. 1–16, 2021.
[7]K. Darvish, L. Penco, J. Ramos, R. Cisneros, J. Pratt, E. Yoshida, S. Ivaldi, and D. Pucci, “Teleoperation of humanoid robots: A survey,” IEEE Trans. Robot., vol. 39, no. 3, pp. 1706–1727, 2023.
[8]H. Li, Y. Cui, and D. Sadigh, “How to train your robots? the impact of demonstration modality on imitation learning,” arXiv:2503.07017, 2025.
[9]T. Buckley and J. E. Colgate, “Dexterous manipulation with a bi-manual anthropomorphic teleoperation robot,” in Proc. Workshop Toward Robot Avatars, IEEE/RSJ Int. Conf. Intell. Robot. Syst., 2024.
[10]A. Iyer, Z. Peng, Y. Dai, I. Guzey, S. Haldar, S. Chintala, and L. Pinto, “Open teach: A versatile teleoperation system for robotic manipulation,” in Proc. Conf. Robot Learn. PMLR, 2025, pp. 2372–2395.
[11]T. Zhao, V. Kumar, S. Levine, and C. Finn, “Learning fine-grained bimanual manipulation with low-cost hardware,” Robot. Sci. Syst., 2023.
[12]Y. Qin, W. Yang, B. Huang, K. Van Wyk, H. Su, X. Wang, Y.-W. Chao, and D. Fox, “Anyteleop: A general vision-based dexterous robot arm-hand teleoperation system,” in Robot. Sci. Syst., 2023.
[13]X. Wang, L. Shen, and L.-H. Lee, “Towards massive interaction with generalist robotics: A systematic review of xr-enabled remote human-robot interaction systems,” arXiv:2403.11384, 2024.
[14]X. Cheng, J. Li, S. Yang, G. Yang, and X. Wang, “Open-television: Teleoperation with immersive active visual feedback,” in Proc. Conf. Robot Learn., 2024.
[15]F. E. Jedrzej Orbik, “Oculus reader: Robotic teleoperation interface,” 2021, accessed: 2025-07-08. [Online]. Available: https://github.com/rail-berkeley/oculus_reader
[16]M. Seo, S. Han, K. Sim, S. H. Bang, C. Gonzalez, L. Sentis, and Y. Zhu, “Deep imitation learning for humanoid loco-manipulation through human teleoperation,” in Proc. IEEE/RAS Int. Conf. Humanoid Robot., 2023, pp. 1–8.
[17]The Khronos OpenXR Working Group, “The OpenXR specification, version 1.0.34,” 2024, accessed: 2025-07-09. [Online]. Available: https://registry.khronos.org/OpenXR/specs/1.0/html/xrspec.html
[18]E. Todorov, T. Erez, and Y. Tassa, “Mujoco: A physics engine for model-based control,” in Proc. IEEE/RSJ Int. Conf. Intell. Robot. Syst., 2012, pp. 5026–5033.
[19]Rhoban, “Placo: Rhoban planning and control,” 2025, accessed: 2025-07-14. [Online]. Available: https://github.com/Rhoban/placo
[20]J. Carpentier, G. Saurel, G. Buondonno, J. Mirabel, F. Lamiraux, O. Stasse, and N. Mansard, “The pinocchio c++ library – a fast and flexible implementation of rigid body dynamics algorithms and their analytical derivatives,” in Proc. IEEE Int. Symp. Syst. Integr., 2019.
[21]J. Haviland and P. Corke, “A purely-reactive manipulability-maximising motion controller,” arXiv:2002.11901, 2020.
[22]B. De Graaf, W. Bles, and J. E. Bos, “Roll motion stimuli: sensory conflict, perceptual weighting and motion sickness,” Brain Res. Bull., vol. 47, no. 5, pp. 489–495, 1998.
[23]H. Geng, F. Wang, S. Wei, Y. Li, B. Wang, B. An, C. T. Cheng, H. Lou, P. Li, Y.-J. Wang et al., “Roboverse: Towards a unified platform, dataset and benchmark for scalable and generalizable robot learning,” arXiv:2504.18904, 2025.
[24]Y. Ze, Z. Chen, J. P. AraÃšjo, Z.-a. Cao, X. B. Peng, J. Wu, and C. K. Liu, “Twist: Teleoperated whole-body imitation system,” arXiv:2505.02833, 2025.