
智能体
文章平均质量分 89
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
World4Drive:端到端自动驾驶中意图-觉察物理潜世界模型
25年7月来自中科院自动化所、理想汽车、鹏程实验室、新加坡国立大学和清华大学的论文“World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model”。端到端自动驾驶直接从原始传感器数据生成规划轨迹,但它通常依赖于昂贵的感知监督来提取场景信息。一个关键的研究挑战是:构建一个信息丰富的驾驶世界模型,以便通过自监督学习实现无感知注释的端到端规划。本文提出 World4Drive,这是一个端到端自原创 2025-08-03 00:01:15 · 836 阅读 · 0 评论 -
DyWA:用于可推广的非抓握操作的动态自适应世界动作模型
27年7月来自北大和 Galbot 的论文“DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation”。非抓握操作对于处理非结构化环境中过薄、过大或无法抓取的物体至关重要。传统的基于规划方法难以处理复杂的接触建模,而基于学习的方法最近成为一种有前途的替代方案。然而,现有的基于学习方法面临两个主要限制:它们严重依赖多视角摄像机和精确的姿态跟踪,并且无法跨不同的物理条件(例如物体质量和桌面原创 2025-08-03 00:01:30 · 1044 阅读 · 0 评论 -
探索贝叶斯推理与具身智能之间的联系:迈向开放的物理世界具身人工智能系统
25年7月来自中国电信天翼数字生活科技有限公司的论文“Exploring the Link Between Bayesian Inference and Embodied Intelligence: Toward Open Physical-World Embodied AI Systems”。具身智能认为,认知能力从根本上源于并成形于,智体与其环境的实时感觉运动交互。这种自适应行为本质上需要在不确定的情况下进行持续推理。贝叶斯统计提供一个原则性的概率框架来应对这一挑战,它将知识表示为概率分布原创 2025-08-02 00:15:00 · 607 阅读 · 0 评论 -
视觉-语言-动作指令调整:从理解到操作
25年7月来自中科大、浙大和上海 AI 实验室的论文“Vision-Language-Action Instruction Tuning: From Understanding to Manipulation”。为了在现实世界中有效运作,机器人必须将多模态推理与精确的动作生成相结合。然而,现有的视觉-语言-动作 (VLA) 模型往往舍本逐末,将其能力局限于特定任务的操作数据,并且会遭受预训练的视觉-语言能力的灾难性遗忘。为了弥补这一差距,InstructVLA,一个端到端的 VLA 模型,保留大型视觉-原创 2025-08-01 00:15:00 · 1190 阅读 · 0 评论 -
VLA-Touch:通过双层触觉反馈增强视觉-语言-动作模型
25年7月来自新加坡 NUS 的论文“VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback”。触觉反馈被普遍认为对于与物理世界的有效交互至关重要。然而,最先进的视觉-语言-动作 (VLA) 模型缺乏解释和使用触觉信号的能力,限制了它们在接触丰富的任务中的有效性。由于缺乏大型多模态数据集,将触觉反馈融入这些系统具有挑战性。VLA-Touch,通过触觉感知来增强通用机器人策略,而无需对基础 VL原创 2025-08-01 00:15:00 · 990 阅读 · 0 评论 -
一个对多任务灵巧操作大型行为模型的检验
25年7月来自 TRI 的论文“A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation”。近年来,机器人操作取得长足的进步,模仿学习策略使得人们能够成功完成灵巧且难以建模的任务。同时,数据和模型规模的扩展促进功能强大的语言和视觉基础模型的开发,从而激发人们大规模地努力创建通用机器人基础模型。虽然这些模型已经获得极大的热情和投入,但对现实世界性能进行有意义的评估仍然是一个挑战,这既限制了开发速度原创 2025-07-31 00:15:00 · 669 阅读 · 0 评论 -
EgoDex:从大规模自我中心视频中学习灵巧操作
25年5月来自 Apple 公司的论文“EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video”。模仿学习在操作方面存在众所周知的数据稀缺问题。与自然语言和二维计算机视觉不同,目前尚无互联网规模的灵巧操作数据库。一个颇具吸引力的选择是以自我为中心的人类视频,这是一种被动可扩展的数据源。然而,现有的大规模数据集(例如 Ego4D)缺乏原生手势标注,且不专注于物体操作。为此用 Apple Vision Pro 收集原创 2025-07-31 00:15:00 · 1962 阅读 · 0 评论 -
ThinkAct:采用强化视觉潜规划的视觉-语言-动作推理
25年7月来自 Nvidia 和台大的论文“ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning”。视觉-语言-动作 (VLA) 推理任务要求智体能够解读多模态指令、执行长远规划,并在动态环境中自适应地行动。现有方法通常以端到端的方式训练 VLA 模型,直接将输入映射到动作,而无需明确的推理,这限制了它们进行多步骤规划或适应复杂任务变化的能力。本文的 ThinkAct,是一个双-系统框架,通过强化原创 2025-07-29 00:15:00 · 585 阅读 · 0 评论 -
Being-H0:基于大规模人类视频的视觉-语言-动作预训练
25年7月来自北大、人大和 BeingBeyond 公司的论文“Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos”。Being-H0,是一个基于大规模真人视频训练的灵巧视觉-语言-动作模型 (VLA)。现有的 VLA 难以胜任需要高灵活性的复杂操作任务,并且对新场景和任务的泛化能力较差,这主要是因为它们依赖于模拟与现实存在显著差距的合成数据,或缺乏规模和多样性的远程操作演示。为了解决这一数据瓶颈,本文提出原创 2025-07-29 00:15:00 · 554 阅读 · 0 评论 -
EdgeVLA:高效的视觉-语言-动作模型
25年7月来自硅谷创业公司 K-scale Labs 的论文“EdgeVLA: Efficient Vision-Language-Action Models”。视觉-语言模型 (VLM) 已成为解决机器人数据稀缺挑战的一种有前途的方法,它使得可泛化视觉运动控制策略的开发成为可能。虽然像 OpenVLA 这样的模型展示这种范式的潜力,但在资源受限的移动操作系统上部署大规模 VLM 仍然是一个重大障碍。本文介绍 Edge VLA (EVLA),旨在显著提高视觉-语言-动作 (VLA) 模型的推理速度。EVL原创 2025-07-28 01:00:00 · 584 阅读 · 0 评论 -
AnyPos:用于双手操作的自动化任务-无关动作范式
25年6月来自清华大学的论文“AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation”。视觉-语言-动作 (VLA) 模型在双手操作等复杂场景下,在任务条件控制方面展现出良好的前景。然而,VLA 模型高度依赖特定任务的人类演示,限制了其泛化能力,并导致数据采集成本高昂。本文提出了一种新的任务-无关动作范式,将动作执行与任务特定条件分离,从而增强了可扩展性、效率和成本效益。为了应对该范式带来的数据收集挑战,例如覆盖密度低、行为冗余原创 2025-07-28 01:00:00 · 858 阅读 · 0 评论 -
Tactile-VLA:解锁视觉-语言-动作模型的物理知识,实现触觉泛化
25年7月来自清华、中科大和上海交大的论文“Tactile-VLA: Unlocking Vision-Language- Action Model’s Physical Knowledge For Tactile Generalization ”。视觉-语言-动作 (VLA) 模型已展现出卓越的成就,这得益于其视觉-语言组件丰富的隐性知识。然而,要实现通用机器人智体,需要精确地扎根于物理交互,尤其是在接触频繁的场景中,细粒度的力控制至关重要。VLA 的隐性知识从确定要做什么提升到指导如何与现实世界进行原创 2025-07-26 20:00:41 · 1156 阅读 · 0 评论 -
用动作分块的强化学习
25年7月来自 UC Berkeley 和 PI 公司的论文“Reinforcement Learning with Action Chunking”。Q-chunking (QC)是一种简单而有效的方法,用于改进强化学习 (RL) 算法,使其能够执行长周期、稀疏奖励任务。该方法专为离线-到-在线的强化学习 (RL) 设置而设计,其目标是利用离线的先验数据集来最大化在线学习的样本效率。在这种设置下,有效的探索和高效的样本学习仍然是核心挑战,因为如何利用离线数据来获得良好的探索性策略尚不明确。其关键见解是原创 2025-07-24 17:48:03 · 884 阅读 · 0 评论 -
EgoVLA:从以自我为中心人类视频中学习视觉-语言-动作模型
25年7月来自UCSD、UIUC、MIT 和 Nvidia 的论文“EgoVLA : Learning Vision-Language-Action Models from Egocentric Human Videos”。用于模仿学习的真实机器人数据收集,已推动机器人操作取得重大进展。然而,该过程中对机器人硬件的要求从根本上限制数据的规模。本文探索使用以自我为中心的人类视频训练视觉-语言-动作 (VLA) 模型。使用人类视频的好处不仅在于其规模,更重要的是场景和任务的丰富性。使用基于人类视频训练的 V原创 2025-07-22 00:15:00 · 1262 阅读 · 0 评论 -
多样性就是可规模化机器人操作学习所需要的全部吗?
25年7月来自上海创智学院、智元机器人、香港大学、北航和上海 AI 实验室的论文“Is Diversity All You Need for Scalable Robotic Manipulation?”。数据规模化推动了自然语言处理 (NLP) 和计算机视觉 (CV) 基础模型的显著成功,但机器人操作中有效数据规模化的原理仍未得到充分理解。这项工作检查三个关键维度——任务(做什么)、具身(使用哪个机器人)和专家(谁来演示)——来研究数据多样性在机器人学习中的微妙作用,挑战了“越多样化越好”的传统直觉。原创 2025-07-22 00:15:00 · 639 阅读 · 0 评论 -
ReCogDrive:端到端自动驾驶的强化认知框架
25年6月来自华中科技和小米公司的论文“ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving”。尽管端到端自动驾驶已经取得了显著进展,但其性能在罕见和长尾场景中会显著下降。最近的方法试图通过利用视觉语言模型 (VLM) 丰富的世界知识来应对这一挑战,但这些方法存在几个局限性:(1)VLM 的预训练数据和真实世界驾驶数据之间存在明显的域差距,(2)离散语言空间和连续动作空间之间的维度不匹配,(3)模仿学原创 2025-07-21 00:15:00 · 1377 阅读 · 0 评论 -
DiffVLA:视觉-语言引导的自动驾驶扩散规划
25年6月来自博世、清华、上海大学、上海交大和东南大学的论文“DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving”。端到端自动驾驶因其完全可微分的设计而备受关注,该设计集成感知、预测和规划等模块化任务,从而能够通过优化实现最终目标。尽管端到端范式潜力巨大,但现有方法仍存在多个方面的问题,包括昂贵的 BEV(鸟瞰图)计算、动作多样性以及在复杂的现实场景中的次优决策。为了应对这些挑战,本文提出一种混合稀疏-密集扩原创 2025-07-21 00:15:00 · 1376 阅读 · 0 评论 -
机器人操作中的视觉-语言-动作模型:系统评估(下)
25年7月来自阿联酋哈利发大学(Khalifa)和西班牙加泰罗尼亚理工(UPC)的综述性论文“Vision Language Action Models in Robotic Manipulation: A Systematic Review”。视觉-语言-动作 (VLA) 模型代表了机器人技术的变革性转变,旨在将视觉感知、自然语言理解和具身控制统一在一个学习框架内。本综述对 VLA 范式进行了全面且具有前瞻性的综合分析,尤其强调了机器人操控和指令驱动的自主性。本文全面分析 102 个 VLA 模型、26原创 2025-07-19 00:15:00 · 848 阅读 · 0 评论 -
机器人操作中的视觉-语言-动作模型:系统评估(上)
25年7月来自阿联酋哈利发大学(Khalifa)和西班牙加泰罗尼亚理工(UPC)的综述性论文“Vision Language Action Models in Robotic Manipulation: A Systematic Review”。视觉-语言-动作 (VLA) 模型代表了机器人技术的变革性转变,旨在将视觉感知、自然语言理解和具身控制统一在一个学习框架内。本综述对 VLA 范式进行了全面且具有前瞻性的综合分析,尤其强调了机器人操控和指令驱动的自主性。本文全面分析 102 个 VLA 模型、26原创 2025-07-19 00:15:00 · 1215 阅读 · 0 评论 -
VOTE:基于轨迹集成投票的视觉-语言-动作模型优化
25年7月来自美国东北大学和硅谷创业公司 EmbodyX 的论文“VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting”。近期大规模视觉语言动作 (VLA) 模型在自然语言引导的机器人操作任务中展现出卓越的性能。然而,当应用于训练分布之外的新物体或陌生环境时,它们的泛化能力仍然有限。为了解决这个问题,许多现有方法集成了深度估计、分割甚至扩散等额外组件来提升泛化能力,但这会显著增加计算开销,导致效率低下。这促使人原创 2025-07-17 22:13:09 · 1048 阅读 · 0 评论 -
DreamVLA:一个拥有全面世界知识的视觉-语言-行动模型
25年7月来自上海交大、澳大利亚技术工程院、清华大学、Galbot、北大、UIUC 和中科大的论文“DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge”。视觉-语言-动作 (VLA) 模型的最新进展已展现出将图像生成与动作预测相结合,从而提升机器人操控泛化能力和推理能力的潜力。然而,现有方法仅限于基于图像的预测,这类预测存在信息冗余的问题,并且缺乏全面且关键的世界知识,包括动态、空间和语义原创 2025-07-17 02:15:00 · 836 阅读 · 0 评论 -
DexVLG:规模化灵巧视觉-语言-抓取模型
25年7月来自BAAI、Galbot、清华、北大、中科院自动化所、上海交大和澳大利亚技术工程院的论文“DexVLG: Dexterous Vision-Language-Grasp Model at Scale”。随着大模型的普及,视觉-语言-动作 (VLA) 系统正助力机器人应对日益复杂的任务。然而,受限于数据采集的难度,相关进展主要集中在控制简单的夹持器末端执行器上。目前,利用大模型实现类人灵巧手的功能性抓取研究甚少。本文介绍 DexVLG,这是一个大型视觉-语言-抓取模型,它使用单视图 RGBD原创 2025-07-16 00:15:00 · 787 阅读 · 0 评论 -
cVLA:迈向高效的相机空间 VLA
25年7月来自德国弗赖堡大学的论文“cVLA: Towards Efficient Camera-Space VLAs”。视觉-语言-动作 (VLA) 模型为解决复杂的机器人操作任务提供了一个引人注目的框架,但训练它们通常成本高昂。本文提出一种 VLA 方法,cVLA,该方法利用视觉-语言模型 (VLM) 在 2D 图像上的优异性能,直接推断图像帧坐标中的机器人末端执行器姿态。与之前输出低级控制的 VLA 模型不同,其模型可以预测轨迹路点,从而使其训练效率更高且与机器人具身无关。尽管采用轻量级设计,下一原创 2025-07-16 00:15:00 · 862 阅读 · 0 评论 -
EVO-0:具有隐空间理解的视觉-语言-动作模型
25年6月来自上海交大、EvoMind Tech 和上海算法创新研究院(IAAR-Shanghai)的论文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。视觉-语言-动作 (VLA) 模型已成为一种有前途的框架,可使通用机器人能够在现实世界中感知、推理和行动。这些模型通常建立在预训练的视觉-语言模型 (VLM) 之上,由于大规模文本预训练,VLM 在语义理解方面表现出色。然而,VLM 通常缺乏精确的空间理原创 2025-07-13 18:19:27 · 1092 阅读 · 0 评论 -
CEED-VLA:具有早退解码的一致性 VLA 模型
25年5月来自香港科大、西湖大学和浙大的论文“CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding”。近年来,视觉-语言-动作 (VLA) 模型凭借其卓越的多模态理解和泛化能力,成为机器人技术领域的重要研究方向。尽管取得了一定进展,但其实际应用却受到推理速度瓶颈的严重制约,尤其是在高频和灵巧操作任务中。尽管近期研究已探索雅可比解码作为传统自回归解码的更高效替代方案,但由于迭代次数过长,其实际应用效益有限。为原创 2025-07-13 10:57:56 · 979 阅读 · 0 评论 -
综述:从物理模拟器和世界模型中学习具身智能(下)
25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能关注的是能够在物理世界中感知、推理和行动的智体。实现强大的具身智能不仅需要先进的感知和控制能力,还需原创 2025-07-10 00:15:00 · 1729 阅读 · 0 评论 -
综述:从物理模拟器和世界模型中学习具身智能(上)
25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能关注的是能够在物理世界中感知、推理和行动的智体。实现强大的具身智能不仅需要先进的感知和控制能力,还需要原创 2025-07-10 00:15:00 · 789 阅读 · 0 评论 -
视觉-语言-动作模型的综述:从一个动作 token 化的视角(下)
25年7月来自北大和北大-灵初智能(Psibot)联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。视觉和语言基础模型在多模态理解、推理和生成方面的显著进步,激发了人们将此类智能扩展到物理世界的日益增长的热情,从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法看似各异,但当前的 VLA 模型可以统一在一个框架下:视觉和语言输入由一系列 VLA 模块处理,生成一系列动作原创 2025-07-09 00:15:00 · 765 阅读 · 0 评论 -
视觉-语言-动作模型的综述:从一个动作 token 化的视角(上)
25年7月来自北大和北大-灵初智能(Psibot)联合实验室的论文“A Survey on Vision-Language-Action Models: An Action Tokenization Perspective”。视觉和语言基础模型在多模态理解、推理和生成方面的显著进步,激发了人们将此类智能扩展到物理世界的日益增长的热情,从而推动了视觉-语言-动作 (VLA) 模型的蓬勃发展。尽管方法看似各异,但当前的 VLA 模型可以统一在一个框架下:视觉和语言输入由一系列 VLA 模块处理,生成一系列动作原创 2025-07-09 00:15:00 · 1281 阅读 · 0 评论 -
4D-VLA:具有跨场景标定的时空视觉-语言-动作预训练
25年6月来自复旦和华为的论文“4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration”。利用多样化的机器人数据进行预训练仍然是一项关键挑战。现有方法通常使用简单的观测数据作为输入来建模数据集的动作分布。然而,这些输入通常不完整,导致条件动作分布分散——称之为坐标系混沌和状态混沌。这种不一致性严重影响预训练的效率。为了解决这个问题,提出 4D-VLA,可以有效地将 4D 信息集成到输入中,原创 2025-07-08 00:15:00 · 807 阅读 · 0 评论 -
RoboRefer:面向机器人视觉-语言模型推理的空间参考
25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。空间参考是实体机器人与三维物理世界交互的基本能力。然而,即使有了强大的预训练视觉-语言模型 (VLM),近期方法仍然无法准确理解复杂的三维场景并动态推理指令-指示的交互位置。为此,RoboRefer,是一个具有 3D 感知能力的 VLM,它首先通过监督微调 (SFT) 集成一个解耦但原创 2025-07-08 00:15:00 · 929 阅读 · 0 评论 -
RoboTransfer:用于机器人视觉策略迁移的几何一致视频扩散
25年5月来自地平线机器人公司、Giga AI 和中科院自动化所的论文“RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer”。模仿学习已成为机器人操控的基本方法。然而,收集大规模的真实世界机器人演示数据成本高昂。模拟器提供了一种经济高效的替代方案,但模拟与现实之间的差距使其难以扩展。因此, RoboTransfer,一个基于扩散的机器人数据合成视频生成框架。与以往的方法不同,RoboTra原创 2025-07-07 07:32:14 · 969 阅读 · 0 评论 -
Human2LocoMan:通过人类预训练学习多功能四足机器人的操作
25年6月来自CMU、谷歌 DeepMind 和 Bosch 的论文“Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining”。四足机器人已在复杂环境中展现出令人印象深刻的运动能力,但为它们配备可扩展的自主多功能操作技能仍然是一项重大挑战。这项工作引入一种用于四足机器人操作的跨具身模仿学习系统,利用从人类和配备多种操作模式的四足机器人 LocoMan 收集的数据。具体而言,其开发一种遥操作和数据收原创 2025-07-07 00:15:00 · 1058 阅读 · 0 评论 -
行为基础模型:面向下一代人形机器人的全身控制系统 (下)
25年6月来自香港理工、逐际动力、宁波数字孪生研究院、香港大学和瑞士 EPFL 的论文“Behavior Foundation Model: Towards Next-Generation Whole-Body Control System of Humanoid Robots”。人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台,正备受关注。然而,由于复杂的动力学、欠驱动和多样化的任务要求,实现人形机器人高效的全身控制 (WBC) 仍然是一项根本性挑战。虽然基于学习的控制器已显示出处理原创 2025-07-06 00:15:00 · 624 阅读 · 0 评论 -
行为基础模型:面向下一代人形机器人的全身控制系统(上)
25年6月来自香港理工、逐际动力、宁波数字孪生研究院、香港大学和瑞士 EPFL 的论文“Behavior Foundation Model: Towards Next-Generation Whole-Body Control System of Humanoid Robots”。人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台,正备受关注。然而,由于复杂的动力学、欠驱动和多样化的任务要求,实现人形机器人高效的全身控制 (WBC) 仍然是一项根本性挑战。虽然基于学习的控制器已显示出处理复原创 2025-07-06 00:15:00 · 817 阅读 · 0 评论 -
灵巧机器人操作的交互式模仿学习:挑战与展望——综述(下)
25年6月来自德国卡尔斯鲁厄理工的论文“Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives—A Survey”。灵巧操作是人形机器人领域一项至关重要但又极其复杂的挑战,需要精确、适应性强且样本高效的学习方法。由于人形机器人通常设计为在以人为中心的环境中运行并与日常物品交互,因此掌握灵巧操作对于实际部署至关重要。强化学习和模仿学习等传统方法取得了显著进展,但由于现实世界原创 2025-07-05 00:15:00 · 750 阅读 · 0 评论 -
VLA 模型后训练,与人类运动学习的相似之处:进展、挑战和趋势(下)
25年6月来自中科院自动化所、中科院大学、澳门科技大学和 UIUC 的论文“Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends”。视觉-语言-动作 (VLA) 模型通过集成用于机器人操作的动作生成模块,扩展了视觉-语言模型 (VLM)。VLA 模型充分利用 VLM 在视觉感知和指令理解方面的优势,在各种操作任务中展现出良好的泛化能力。然而,在要求高精度和准原创 2025-07-04 00:15:00 · 950 阅读 · 0 评论 -
灵巧机器人操作的交互式模仿学习:挑战与展望——综述(上)
25年6月来自德国卡尔斯鲁厄理工的论文“Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives—A Survey”。灵巧操作是人形机器人领域一项至关重要但又极其复杂的挑战,需要精确、适应性强且样本高效的学习方法。由于人形机器人通常设计为在以人为中心的环境中运行并与日常物品交互,因此掌握灵巧操作对于实际部署至关重要。原创 2025-07-05 00:15:00 · 989 阅读 · 0 评论 -
VLA 模型后训练,与人类运动学习的相似之处:进展、挑战和趋势(上)
《视觉-语言-动作模型后训练与人类运动学习的关联:进展、挑战与趋势》 本文从人类运动学习视角系统回顾了VLA模型后训练方法。研究指出,尽管预训练的VLA模型展现出任务泛化能力,但其在实际应用中的性能仍受限于机器人操作特有的三大挑战:开放环境数据稀缺、执行方式异构性以及复杂任务规则。通过类比人类运动技能习得过程,作者提出四维后训练框架:1)环境感知增强;2)具身机器人觉察提升;3)任务理解深化;4)多组件集成。研究揭示了当前机器人操作数据集规模不足(最大仅250万样本)与VLA模型架构特征,并对比了后训练策略原创 2025-07-04 00:15:00 · 681 阅读 · 0 评论 -
WorldVLA:迈向自回归动作世界模型
25年6月来自阿里达摩实验室、湖畔实验室和浙大的论文“WorldVLA: Towards Autoregressive Action World Model”。WorldVLA,一个自回归动作世界模型,它将动作和图像的理解与生成统一起来。WorldVLA 将视觉-语言-动作 (VLA) 模型和世界模型集成在一个框架中。世界模型利用动作和图像理解来预测未来图像,旨在学习环境的底层物理特性,从而改进动作生成。同时,动作模型会根据图像观测生成后续动作,从而辅助视觉理解,进而促进世界模型的视觉生成。WorldVL原创 2025-07-03 00:15:00 · 937 阅读 · 0 评论