三谷秋水-CSDN博客

原创 Being-H0：基于大规模人类视频的视觉-语言-动作预训练

25年7月来自北大、人大和 BeingBeyond 公司的论文“Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos”。Being-H0，是一个基于大规模真人视频训练的灵巧视觉-语言-动作模型 (VLA)。现有的 VLA 难以胜任需要高灵活性的复杂操作任务，并且对新场景和任务的泛化能力较差，这主要是因为它们依赖于模拟与现实存在显著差距的合成数据，或缺乏规模和多样性的远程操作演示。为了解决这一数据瓶颈，本文提出

2025-07-29 00:15:00 246

原创 ThinkAct：采用强化视觉潜规划的视觉-语言-动作推理

25年7月来自 Nvidia 和台大的论文“ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning”。视觉-语言-动作 (VLA) 推理任务要求智体能够解读多模态指令、执行长远规划，并在动态环境中自适应地行动。现有方法通常以端到端的方式训练 VLA 模型，直接将输入映射到动作，而无需明确的推理，这限制了它们进行多步骤规划或适应复杂任务变化的能力。本文的 ThinkAct，是一个双-系统框架，通过强化

2025-07-29 00:15:00 155

原创 AnyPos：用于双手操作的自动化任务-无关动作范式

25年6月来自清华大学的论文“AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation”。视觉-语言-动作 (VLA) 模型在双手操作等复杂场景下，在任务条件控制方面展现出良好的前景。然而，VLA 模型高度依赖特定任务的人类演示，限制了其泛化能力，并导致数据采集成本高昂。本文提出了一种新的任务-无关动作范式，将动作执行与任务特定条件分离，从而增强了可扩展性、效率和成本效益。为了应对该范式带来的数据收集挑战，例如覆盖密度低、行为冗余

2025-07-28 01:00:00 739

原创 EdgeVLA：高效的视觉-语言-动作模型

25年7月来自硅谷创业公司 K-scale Labs 的论文“EdgeVLA: Efficient Vision-Language-Action Models”。视觉-语言模型 (VLM) 已成为解决机器人数据稀缺挑战的一种有前途的方法，它使得可泛化视觉运动控制策略的开发成为可能。虽然像 OpenVLA 这样的模型展示这种范式的潜力，但在资源受限的移动操作系统上部署大规模 VLM 仍然是一个重大障碍。本文介绍 Edge VLA (EVLA)，旨在显著提高视觉-语言-动作 (VLA) 模型的推理速度。EVL

2025-07-28 01:00:00 429

原创 Tactile-VLA：解锁视觉-语言-动作模型的物理知识，实现触觉泛化

25年7月来自清华、中科大和上海交大的论文“Tactile-VLA: Unlocking Vision-Language- Action Model’s Physical Knowledge For Tactile Generalization ”。视觉-语言-动作 (VLA) 模型已展现出卓越的成就，这得益于其视觉-语言组件丰富的隐性知识。然而，要实现通用机器人智体，需要精确地扎根于物理交互，尤其是在接触频繁的场景中，细粒度的力控制至关重要。VLA 的隐性知识从确定要做什么提升到指导如何与现实世界进行

2025-07-26 20:00:41 1092

原创自动驾驶中的视觉-语言-动作模型：综述

27年6月来自 MacGill 大学、清华、小米、Wisconsin 大学和 Minnesota 大学的论文“A Survey on Vision-Language-Action Models for Autonomous Driving”。多模态大语言模型 (MLLM) 的快速发展为视觉-语言-动作 (VLA) 范式铺平了道路，该范式将视觉感知、自然语言理解和控制集成到单一策略中。自动驾驶研究人员正在积极地将这些方法应用到汽车领域。此类模型有望使自动驾驶（AD）汽车能够解释高级指令、推理复杂交通场景并

2025-07-26 00:15:00 1932

原创用动作分块的强化学习

25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。Q-chunking （QC）是一种简单而有效的方法，用于改进强化学习 (RL) 算法，使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计，其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下，有效的探索和高效的样本学习仍然是核心挑战，因为如何利用离线数据来获得良好的探索性策略尚不明确。其关键见解是

2025-07-24 17:48:03 871

原创字节的机器人模型 GR-3

25年7月字节发布技术报告“GR-3 Technical Report”。这是字节在通才机器人策略方面的最新进展，即 GR-3 的开发。GR-3 是一个大规模的视觉-语言-动作 (VLA) 模型。它展现出卓越的泛化能力，能够泛化至新物体、新环境以及涉及抽象概念的指令。此外，它能够利用极少的人类轨迹数据进行高效微调，从而快速且经济高效地适应新环境。GR-3 还擅长处理长范围和灵巧的任务，包括需要双手操作和移动的任务，展现出稳健可靠的性能。这些能力是通过多方面的训练方案实现的，包括与网络规模的视觉-语言数据

2025-07-24 17:47:51 1108

原创多样性就是可规模化机器人操作学习所需要的全部吗？

25年7月来自上海创智学院、智元机器人、香港大学、北航和上海 AI 实验室的论文“Is Diversity All You Need for Scalable Robotic Manipulation?”。数据规模化推动了自然语言处理 (NLP) 和计算机视觉 (CV) 基础模型的显著成功，但机器人操作中有效数据规模化的原理仍未得到充分理解。这项工作检查三个关键维度——任务（做什么）、具身（使用哪个机器人）和专家（谁来演示）——来研究数据多样性在机器人学习中的微妙作用，挑战了“越多样化越好”的传统直觉。

2025-07-22 00:15:00 633

原创 EgoVLA：从以自我为中心人类视频中学习视觉-语言-动作模型

25年7月来自UCSD、UIUC、MIT 和 Nvidia 的论文“EgoVLA : Learning Vision-Language-Action Models from Egocentric Human Videos”。用于模仿学习的真实机器人数据收集，已推动机器人操作取得重大进展。然而，该过程中对机器人硬件的要求从根本上限制数据的规模。本文探索使用以自我为中心的人类视频训练视觉-语言-动作 (VLA) 模型。使用人类视频的好处不仅在于其规模，更重要的是场景和任务的丰富性。使用基于人类视频训练的 V

2025-07-22 00:15:00 1244

原创 DiffVLA：视觉-语言引导的自动驾驶扩散规划

25年6月来自博世、清华、上海大学、上海交大和东南大学的论文“DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving”。端到端自动驾驶因其完全可微分的设计而备受关注，该设计集成感知、预测和规划等模块化任务，从而能够通过优化实现最终目标。尽管端到端范式潜力巨大，但现有方法仍存在多个方面的问题，包括昂贵的 BEV（鸟瞰图）计算、动作多样性以及在复杂的现实场景中的次优决策。为了应对这些挑战，本文提出一种混合稀疏-密集扩

2025-07-21 00:15:00 1363

原创 ReCogDrive：端到端自动驾驶的强化认知框架

25年6月来自华中科技和小米公司的论文“ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving”。尽管端到端自动驾驶已经取得了显著进展，但其性能在罕见和长尾场景中会显著下降。最近的方法试图通过利用视觉语言模型 (VLM) 丰富的世界知识来应对这一挑战，但这些方法存在几个局限性：（1）VLM 的预训练数据和真实世界驾驶数据之间存在明显的域差距，（2）离散语言空间和连续动作空间之间的维度不匹配，（3）模仿学

2025-07-21 00:15:00 1368

原创机器人操作中的视觉-语言-动作模型：系统评估（上）

25年7月来自阿联酋哈利发大学（Khalifa）和西班牙加泰罗尼亚理工（UPC）的综述性论文“Vision Language Action Models in Robotic Manipulation: A Systematic Review”。视觉-语言-动作 (VLA) 模型代表了机器人技术的变革性转变，旨在将视觉感知、自然语言理解和具身控制统一在一个学习框架内。本综述对 VLA 范式进行了全面且具有前瞻性的综合分析，尤其强调了机器人操控和指令驱动的自主性。本文全面分析 102 个 VLA 模型、26

2025-07-19 00:15:00 1194

原创机器人操作中的视觉-语言-动作模型：系统评估（下）

25年7月来自阿联酋哈利发大学（Khalifa）和西班牙加泰罗尼亚理工（UPC）的综述性论文“Vision Language Action Models in Robotic Manipulation: A Systematic Review”。视觉-语言-动作 (VLA) 模型代表了机器人技术的变革性转变，旨在将视觉感知、自然语言理解和具身控制统一在一个学习框架内。本综述对 VLA 范式进行了全面且具有前瞻性的综合分析，尤其强调了机器人操控和指令驱动的自主性。本文全面分析 102 个 VLA 模型、26

2025-07-19 00:15:00 834

原创 VOTE：基于轨迹集成投票的视觉-语言-动作模型优化

25年7月来自美国东北大学和硅谷创业公司 EmbodyX 的论文“VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting”。近期大规模视觉语言动作 (VLA) 模型在自然语言引导的机器人操作任务中展现出卓越的性能。然而，当应用于训练分布之外的新物体或陌生环境时，它们的泛化能力仍然有限。为了解决这个问题，许多现有方法集成了深度估计、分割甚至扩散等额外组件来提升泛化能力，但这会显著增加计算开销，导致效率低下。这促使人

2025-07-17 22:13:09 1039

原创 DreamVLA：一个拥有全面世界知识的视觉-语言-行动模型

25年7月来自上海交大、澳大利亚技术工程院、清华大学、Galbot、北大、UIUC 和中科大的论文“DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge”。视觉-语言-动作 (VLA) 模型的最新进展已展现出将图像生成与动作预测相结合，从而提升机器人操控泛化能力和推理能力的潜力。然而，现有方法仅限于基于图像的预测，这类预测存在信息冗余的问题，并且缺乏全面且关键的世界知识，包括动态、空间和语义

2025-07-17 02:15:00 821

原创 cVLA：迈向高效的相机空间 VLA

25年7月来自德国弗赖堡大学的论文“cVLA: Towards Efficient Camera-Space VLAs”。视觉-语言-动作 (VLA) 模型为解决复杂的机器人操作任务提供了一个引人注目的框架，但训练它们通常成本高昂。本文提出一种 VLA 方法，cVLA，该方法利用视觉-语言模型 (VLM) 在 2D 图像上的优异性能，直接推断图像帧坐标中的机器人末端执行器姿态。与之前输出低级控制的 VLA 模型不同，其模型可以预测轨迹路点，从而使其训练效率更高且与机器人具身无关。尽管采用轻量级设计，下一

2025-07-16 00:15:00 797

原创 DexVLG：规模化灵巧视觉-语言-抓取模型

25年7月来自BAAI、Galbot、清华、北大、中科院自动化所、上海交大和澳大利亚技术工程院的论文“DexVLG: Dexterous Vision-Language-Grasp Model at Scale”。随着大模型的普及，视觉-语言-动作 (VLA) 系统正助力机器人应对日益复杂的任务。然而，受限于数据采集的难度，相关进展主要集中在控制简单的夹持器末端执行器上。目前，利用大模型实现类人灵巧手的功能性抓取研究甚少。本文介绍 DexVLG，这是一个大型视觉-语言-抓取模型，它使用单视图 RGBD

2025-07-16 00:15:00 777

原创 EVO-0：具有隐空间理解的视觉-语言-动作模型

25年6月来自上海交大、EvoMind Tech 和上海算法创新研究院（IAAR-Shanghai）的论文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。视觉-语言-动作 (VLA) 模型已成为一种有前途的框架，可使通用机器人能够在现实世界中感知、推理和行动。这些模型通常建立在预训练的视觉-语言模型 (VLM) 之上，由于大规模文本预训练，VLM 在语义理解方面表现出色。然而，VLM 通常缺乏精确的空间理

2025-07-13 18:19:27 1080

原创 CEED-VLA：具有早退解码的一致性 VLA 模型

25年5月来自香港科大、西湖大学和浙大的论文“CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding”。近年来，视觉-语言-动作 (VLA) 模型凭借其卓越的多模态理解和泛化能力，成为机器人技术领域的重要研究方向。尽管取得了一定进展，但其实际应用却受到推理速度瓶颈的严重制约，尤其是在高频和灵巧操作任务中。尽管近期研究已探索雅可比解码作为传统自回归解码的更高效替代方案，但由于迭代次数过长，其实际应用效益有限。为

2025-07-13 10:57:56 970

原创综述：从物理模拟器和世界模型中学习具身智能（上）

25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能关注的是能够在物理世界中感知、推理和行动的智体。实现强大的具身智能不仅需要先进的感知和控制能力，还需要

2025-07-10 00:15:00 772

原创综述：从物理模拟器和世界模型中学习具身智能（下）

25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能关注的是能够在物理世界中感知、推理和行动的智体。实现强大的具身智能不仅需要先进的感知和控制能力，还需

2025-07-10 00:15:00 1717

原创视觉-语言-动作模型的综述：从一个动作 token 化的视角（上）

25年7月来自北大和北大-灵初智能（Psibot）联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。视觉和语言基础模型在多模态理解、推理和生成方面的显著进步，激发了人们将此类智能扩展到物理世界的日益增长的热情，从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法看似各异，但当前的 VLA 模型可以统一在一个框架下：视觉和语言输入由一系列 VLA 模块处理，生成一系列动作

2025-07-09 00:15:00 1272

原创视觉-语言-动作模型的综述：从一个动作 token 化的视角（下）

25年7月来自北大和北大-灵初智能（Psibot）联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。视觉和语言基础模型在多模态理解、推理和生成方面的显著进步，激发了人们将此类智能扩展到物理世界的日益增长的热情，从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法看似各异，但当前的 VLA 模型可以统一在一个框架下：视觉和语言输入由一系列 VLA 模块处理，生成一系列动作

2025-07-09 00:15:00 758

原创 RoboRefer：面向机器人视觉-语言模型推理的空间参考

25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。空间参考是实体机器人与三维物理世界交互的基本能力。然而，即使有了强大的预训练视觉-语言模型 (VLM)，近期方法仍然无法准确理解复杂的三维场景并动态推理指令-指示的交互位置。为此，RoboRefer，是一个具有 3D 感知能力的 VLM，它首先通过监督微调 (SFT) 集成一个解耦但

2025-07-08 00:15:00 921 1

原创 4D-VLA：具有跨场景标定的时空视觉-语言-动作预训练

25年6月来自复旦和华为的论文“4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration”。利用多样化的机器人数据进行预训练仍然是一项关键挑战。现有方法通常使用简单的观测数据作为输入来建模数据集的动作分布。然而，这些输入通常不完整，导致条件动作分布分散——称之为坐标系混沌和状态混沌。这种不一致性严重影响预训练的效率。为了解决这个问题，提出 4D-VLA，可以有效地将 4D 信息集成到输入中，

2025-07-08 00:15:00 798

原创 RoboTransfer：用于机器人视觉策略迁移的几何一致视频扩散

25年5月来自地平线机器人公司、Giga AI 和中科院自动化所的论文“RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer”。模仿学习已成为机器人操控的基本方法。然而，收集大规模的真实世界机器人演示数据成本高昂。模拟器提供了一种经济高效的替代方案，但模拟与现实之间的差距使其难以扩展。因此， RoboTransfer，一个基于扩散的机器人数据合成视频生成框架。与以往的方法不同，RoboTra

2025-07-07 07:32:14 960

原创 Human2LocoMan：通过人类预训练学习多功能四足机器人的操作

25年6月来自CMU、谷歌 DeepMind 和 Bosch 的论文“Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining”。四足机器人已在复杂环境中展现出令人印象深刻的运动能力，但为它们配备可扩展的自主多功能操作技能仍然是一项重大挑战。这项工作引入一种用于四足机器人操作的跨具身模仿学习系统，利用从人类和配备多种操作模式的四足机器人 LocoMan 收集的数据。具体而言，其开发一种遥操作和数据收

2025-07-07 00:15:00 1045

原创行为基础模型：面向下一代人形机器人的全身控制系统（上）

25年6月来自香港理工、逐际动力、宁波数字孪生研究院、香港大学和瑞士 EPFL 的论文“Behavior Foundation Model: Towards Next-Generation Whole-Body Control System of Humanoid Robots”。人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台，正备受关注。然而，由于复杂的动力学、欠驱动和多样化的任务要求，实现人形机器人高效的全身控制 (WBC) 仍然是一项根本性挑战。虽然基于学习的控制器已显示出处理复

2025-07-06 00:15:00 805

原创行为基础模型：面向下一代人形机器人的全身控制系统（下）

25年6月来自香港理工、逐际动力、宁波数字孪生研究院、香港大学和瑞士 EPFL 的论文“Behavior Foundation Model: Towards Next-Generation Whole-Body Control System of Humanoid Robots”。人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台，正备受关注。然而，由于复杂的动力学、欠驱动和多样化的任务要求，实现人形机器人高效的全身控制 (WBC) 仍然是一项根本性挑战。虽然基于学习的控制器已显示出处理

2025-07-06 00:15:00 611

原创灵巧机器人操作的交互式模仿学习：挑战与展望——综述（上）

25年6月来自德国卡尔斯鲁厄理工的论文“Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives—A Survey”。灵巧操作是人形机器人领域一项至关重要但又极其复杂的挑战，需要精确、适应性强且样本高效的学习方法。由于人形机器人通常设计为在以人为中心的环境中运行并与日常物品交互，因此掌握灵巧操作对于实际部署至关重要。

2025-07-05 00:15:00 978

原创灵巧机器人操作的交互式模仿学习：挑战与展望——综述（下）

25年6月来自德国卡尔斯鲁厄理工的论文“Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives—A Survey”。灵巧操作是人形机器人领域一项至关重要但又极其复杂的挑战，需要精确、适应性强且样本高效的学习方法。由于人形机器人通常设计为在以人为中心的环境中运行并与日常物品交互，因此掌握灵巧操作对于实际部署至关重要。强化学习和模仿学习等传统方法取得了显著进展，但由于现实世界

2025-07-05 00:15:00 736

原创 VLA 模型后训练，与人类运动学习的相似之处：进展、挑战和趋势（上）

《视觉-语言-动作模型后训练与人类运动学习的关联：进展、挑战与趋势》本文从人类运动学习视角系统回顾了VLA模型后训练方法。研究指出，尽管预训练的VLA模型展现出任务泛化能力，但其在实际应用中的性能仍受限于机器人操作特有的三大挑战：开放环境数据稀缺、执行方式异构性以及复杂任务规则。通过类比人类运动技能习得过程，作者提出四维后训练框架：1)环境感知增强；2)具身机器人觉察提升；3)任务理解深化；4)多组件集成。研究揭示了当前机器人操作数据集规模不足（最大仅250万样本）与VLA模型架构特征，并对比了后训练策略

2025-07-04 00:15:00 674

原创 VLA 模型后训练，与人类运动学习的相似之处：进展、挑战和趋势（下）

25年6月来自中科院自动化所、中科院大学、澳门科技大学和 UIUC 的论文“Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends”。视觉-语言-动作 (VLA) 模型通过集成用于机器人操作的动作生成模块，扩展了视觉-语言模型 (VLM)。VLA 模型充分利用 VLM 在视觉感知和指令理解方面的优势，在各种操作任务中展现出良好的泛化能力。然而，在要求高精度和准

2025-07-04 00:15:00 945

原创 UAD：用于机器人操作泛化的无监督 Affordance 蒸馏

25年6月来自斯坦福大学 Li Feifei 组的论文“UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation”。理解细粒度的目标 affordance 对于机器人在给定开放式任务指令的非结构化环境中操纵目标至关重要。然而，现有的视觉 affordance 预测方法通常依赖于手动注释的数据或仅针对预定义任务集的条件。本文引入无监督 affordance 蒸馏 (UAD)，一种将 afford

2025-07-03 00:15:00 1139

原创 WorldVLA：迈向自回归动作世界模型

25年6月来自阿里达摩实验室、湖畔实验室和浙大的论文“WorldVLA: Towards Autoregressive Action World Model”。WorldVLA，一个自回归动作世界模型，它将动作和图像的理解与生成统一起来。WorldVLA 将视觉-语言-动作 (VLA) 模型和世界模型集成在一个框架中。世界模型利用动作和图像理解来预测未来图像，旨在学习环境的底层物理特性，从而改进动作生成。同时，动作模型会根据图像观测生成后续动作，从而辅助视觉理解，进而促进世界模型的视觉生成。WorldVL

2025-07-03 00:15:00 932

原创 BridgeVLA：输入-输出对齐为基于视觉语言模型的高效 3D 操作学习

25年6月来自中科院自动化所、字节跳动、中科院大学、中科第五纪和南京大学的论文“BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models”。近年来，利用预训练的视觉语言模型 (VLM) 构建视觉语言动作 (VLA) 模型已成为一种高效的机器人操作学习方法，且前景广阔。然而，目前仅有少数方法将 3D 信号融入 VLM 进行动作预测，且未能充分利用 3D 数据固有的

2025-07-02 00:15:00 625

原创 Agentic Robot：一个受大脑启发的具身智体视觉-语言-动作模型框架

25年5月来自吉林大学、哈佛大学、MIT、华中科技大学、南方科技大学、Lehigh大学和上海交大的论文“Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents”。长视域机器人操作对自主系统提出了重大挑战，要求在复杂的连续任务中具备扩展推理能力、精确执行能力和强大的错误恢复能力。目前的方法，无论是基于静态规划还是端到端的视觉运动策略，都容易在执行过程中出现错误累积，并且缺乏

2025-07-02 00:15:00 1078

原创利用视觉-语言模型搭建机器人灵巧操作的支架

25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“Scaffolding Dexterous Manipulation with Vision-Language Models”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习 (RL) 可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。因此，当代灵巧操作领域的研究通常基于参考轨迹进行引导。这些轨迹指定了目标（target）手的姿

2025-07-01 05:47:15 1360

原创跨时间潜运动迁移以实现操作中的多帧预测

25年6月来自中科大、上海AI实验室、浙大和香港中文大学的论文“Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation”。最近，基于预训练视觉语言模型 (VLM) 构建的视觉-语言-动作 (VLA) 模型已在操作任务中展现出强大的泛化能力。然而，它们仍然受限于单帧观察范式，无法充分利用聚合多帧历史观察所提供的运动信息，因为大型视觉语言主干会带来大量的计算成本和推理延迟。CronusVLA，是一个统

2025-07-01 00:15:00 1718

空空如也

空空如也