盘点 | 5年VLA进化之路，45篇代表性工作！它凭什么成为具身智能「新范式」？

最新推荐文章于 2025-06-21 16:45:08 发布

深蓝学院

最新推荐文章于 2025-06-21 16:45:08 发布

阅读量1k

点赞数 8

CC 4.0 BY-SA版权

文章标签：人工智能大数据

本文链接：https://blog.csdn.net/soaring_casia/article/details/148615312

具身智能的大脑是怎么炼成的？

时至今日，“具身智能”无疑是最炙手可热的技术关键词之一。

而 VLA（Vision-Language-Action Models），作为与之紧密相关的前沿方向，堪称 AI 从 “会思考” 迈向 “能行动” 的关键跳板，也频繁现身于顶尖机构报告、学术峰会的核心议题。

VLA模型的火爆并不是偶然。作为具身的“大脑”，它远非简单的“看图说话”或传统的程序化控制。

VLA的核心使命，在于无缝打通“感知-理解-决策-执行”的闭环：让机器人既能理解复杂自然语言，又能识别真实环境，并做出符合人类语义预期的动作。

这种“多模态+行为决策”的融合能力，正是构建真正通用智能体的关键所在。

从实验室的初步探索，到如今能执行整理房间、收拾餐具等复杂任务的先进系统（如π系列），VLA的发展轨迹清晰而迅猛。

本文将梳理近五年间VLA领域的关键突破与技术演进，看它如何一步步从理论构想走向现实应用。

▲图1｜这张图展示了 VLA 模型的发展历程¹：从视觉、语言、动作各自为战的孤立系统，逐步走向三者深度融合的统一架构。VLA 模型让机器人能够同时具备感知环境、理解语言和执行动作的能力，打破了早期方法中感知与控制割裂的局限，标志着通向适应性强、可泛化、具智能的具身智能体迈出了关键一步©️【深蓝具身智能】编译

我们将通过 2020–2025 年的代表性工作，勾勒出 VLA 技术是如何从“能看、能听”逐步演进为“能理解、能执行”的。

（注：由于篇幅限制，这里仅选取代表中的“代表”进行梳理，全部45篇见文末参考1。）

VLA，全称 Vision-Language-Action，是一种能同时理解视觉图像、自然语言，并生成动作控制指令的 AI 模型架构。

它的特别之处在于，不再是分模块“各自为政”，而是将“感知、理解、决策”整合进一个统一框架中。

你可以把它理解为——在过去，我们需要分别训练图像识别模型、语义理解模型、控制策略模型；而现在，VLA 希望一个模型就能从图片和语言中“看懂任务”，并“动手完成”。

这项技术的重要性不言而喻。无论是家庭服务机器人、仓储物流、手术助理，还是自主车辆与智能助理，只要涉及“与人类沟通+在真实世界行动”，都需要 VLA 模型提供支撑。

它正逐渐成为具身智能的核心引擎。

接下来，我们将以每年几个代表模型的方式，盘点近五年来 VLA 模型如何从早期的任务特化系统，发展为今天具备开放指令理解和通用控制能力的“大脑中枢”。

▲图2｜近几年VLA领域的代表作汇总（约45篇，可以查看文末参考文献1，找到每篇文章的链接）©️【深蓝具身智能】编译

2020–2021：VLN-BERT 与 CLIPort —— VLA 的雏形在导航与操作中萌芽

VLA 模型的技术基础，最早可追溯到视觉语言导航（VLN）与操控任务中对“感知+语言”的统一建模需求。

2020 年提出的 VLN-BERT² 是第一个将 BERT 应用于导航任务的多模态 Transformer 模型。

它将视觉输入、语言指令和历史路径状态编码为统一的 token 序列，并通过多层 cross-modal attention 解码导航动作，显著提升了导航准确率，也开启了“语言能驱动动作”的研究思路。

▲图3｜VLN-BERT原理

2021 年，华盛顿大学的 CLIPort³ 则进一步探索了语言与操作动作的映射。

它将 CLIP 的图文对齐能力引入到机器人操作中，通过图像和自然语言任务描述，引导低维动作的生成，在多任务少样本场景下展示了强泛化能力。

例如，CLIPort 可以在训练中只见过“把红杯子放入盒子”，但在测试时完成“把蓝碗放到右边”这样的新指令动作。

这是端到端地把语言、视觉与动作联系起来的早期成功实践。

▲图4｜CLIPort框架©️【深蓝具身智能】编译

虽然这阶段的模型仍偏向任务专用、结构分离，但为后续统一建模的 VLA 模型奠定了技术路径——

语言不仅是解释器，更是直接驱动动作生成的接口。

2021–2022：SayCan 与 Perceiver-Actor-Critic —— 从理解语言到执行策略的关键跳跃

在 CLIPport 等模型展示语言-动作联系的可能性后，研究者开始探索如何将语言决策嵌入具身策略执行中。

2022 年 Google 推出的 SayCan⁴ 是这一方向的代表作，它提出了一种“语言概率 × 执行可行性”的组合策略。

先用大语言模型（如 PaLM）生成可能的任务计划，再通过强化学习训练的价值网络评估每条指令的可执行性。最终控制机器人完成如“把瓶子放到水槽里”的复杂自然语言任务。

SayCan 将语言理解与动作策略明确解耦，提升了规划鲁棒性，同时增强了指令的可解释性。

▲图5｜VLA语言理解到执行方式流程一览©️【深蓝具身智能】编译

同年，DeepMind 推出的 Perceiver-Actor-Critic⁵ 则在模型结构上进行创新。

其使用 Perceiver 模型对多模态输入进行统一编码，并通过 Transformer 解码动作值函数。它支持从图像、语言、状态等多模态输入中直接输出动作分布，是早期尝试用大模型进行策略学习的重要一步。

这一时期的研究显著推动了“语言作为任务接口”与“跨模态策略学习”的结合，逐步建立起 VLA 模型具备通用规划、评估与执行能力的雏形，也为 RT 系列的诞生打下了基础。

2022–2023：RT 系列 —— 从多模态感知到动作控制的统一尝试

VLA模型真正走入大众视野，是从谷歌 Robotics 团队的 RT 系列开始的。

RT-1⁶ 是最早将 Transformer 应用于真实机器人控制的尝试，它基于 13 万段人类操作示范构建多模态训练集，以图像、语言指令和连续控制信号作为输入，训练机器人理解语言并直接输出低维动作控制。这一模型首次展示了机器人可以通过一个统一的 Transformer 框架，在厨房环境中完成诸如“把可乐放进冰箱”这样的多步骤任务。

▲图6｜RT-1方法流程及总体训练框架©️【深蓝具身智能】编译

随后 RT-2⁷ 更进一步：它不仅继续采用 Transformer 结构，还将 CLIP 等视觉语言基础模型引入控制流程中。

首次实现了网页知识到机器人动作的转移。也就是说，机器人不再仅依赖训练时见过的任务，而是可以理解来自互联网上的开放语言描述，并将其转化为实际行为。

RT-1与 RT-2系列的工作奠定了“图像+语言+动作”统一建模的 VLA 基线，也引发了整个具身智能领域对通用机器人控制的广泛关注。

2023–2024：OpenVLA —— 从封闭系统走向开放世界的第一步

RT 系列展示了通用 VLA 控制模型的可行性，但也暴露出一个关键问题：闭源、难复现、无法扩展。

为打破这一瓶颈，斯坦福、伯克利与 Toyota Research Institute 等机构联合推出了 OpenVLA⁸。

一个真正意义上的开源、可复现、可微调的通用 VLA 模型。

视频1｜OpenVLA框架介绍↓↓↓

盘点 | 5年VLA进化之路，45篇代表性工作！它凭什么成为具身智能「新范式」？https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA

OpenVLA 基于 LLaMA 2 的 7B 参数语言模型，融合 SigLIP 与 DINOv2 提供的视觉特征，使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练，任务涵盖物体摆放、器具清理、多物体分类等，机器人可根据语言指令快速适配多种身体形态（如 WidowX、Franka 等）。令人惊艳的是，OpenVLA 以远小于 RT-2-X 的模型规模（7B vs. 55B），在 BridgeData V2 等多任务测试中反而取得更优结果。

除了表现优异，它还具备实用性：支持 LoRA 微调、4-bit 量化、低成本部署，普通 RTX4090 即可运行。

OpenVLA 成为“人人都能用”的通用 VLA 控制器，也推动 VLA 模型从“实验室演示”走向“落地场景”。

延伸阅读：照搬=最佳实践？分享真正的 VLA 微调高手，“常用”的3大具身智能VLA模型！https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247486453&idx=1&sn=338bad4a03a35729bec735fd0d8957dc&scene=21#wechat_redirect

2024–2025：π 系列 —— 重构从语言到动作的高效泛化路径

继 OpenVLA 推动模型开源之后，谷歌 DeepMind 提出的 π 系列（π0 与 π0.5）开始重新思考一个问题：如何以最简结构实现最强泛化？

π⁹ 系列提出了一种全新的思路，即用流匹配（Flow Matching）机制取代传统序列解码器。将动作表示为连续空间的概率分布，从而让机器人可以精准生成“完整的动作轨迹”，而非仅仅输出下一个动作 token。

π0 以单一模型在多种任务中实现高成功率，展示了 Transformer 架构在处理长时序动作预测中的优势。

π0.5¹⁰ 更进一步，通过构建大规模异构数据集（包含模拟演示、真实家庭数据、网络图文数据等）。

在不牺牲控制精度的前提下实现真正的“任务泛化”和“环境泛化”。它首次在未知家庭场景中完成如厨房清理、卧室收纳等多步骤任务，标志着 VLA 模型已具备向现实世界大规模推广的能力。

视频2｜机经过在海量数据上的训练与学习，VLA模型具备在真实场景多任务的泛化能力↓↓↓

盘点 | 5年VLA进化之路，45篇代表性工作！它凭什么成为具身智能「新范式」？https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA

π 系列不仅继承了 RT 的统一建模精神，也在训练范式和控制输出方式上进行了彻底革新，为未来“类人”通用智能体奠定技术基础。

延伸阅读：π0.5泛化真的强吗？（伪代码篇）VLA模型深度解析：从预备知识到训练方法https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247487799&idx=1&sn=5ac8a33275e277ecf643fda212bde9fe&scene=21#wechat_redirect

一个统一的名字，一类正在成型的方法范式

当然，VLA作为一个快速发展的庞大新兴领域，一篇文章难以尽善尽美的概括。此外，如今提到 VLA模型，很多研究者都不再把它当作某个具体模型的名字，而是视为一类新兴的模型范式。

除了本文介绍的框架外，当前的 VLA 研究正在迅速分化出多种技术路径。例如：

在模型结构上有采用自回归架构（如 RT 系列、π 系列），也有基于扩散模型的动作解码器（如 Octo、CogACT）；
在输入输出层面，有模型接受视觉轨迹（TraceVLA）、3D点云（3D-VLA），也有关注 token 表达压缩（如 FAST）；
还有模型专为不同场景设计：有的用于双臂操作（RDT-1B），有的服务于四足机器人（QUAR-VLA），有的面向自动驾驶、家庭服务等垂直领域。
同时，越来越多研究开始采用双系统分层架构，模拟人类的 System 1（快速反应）和 System 2（深度推理）模式。如 Hi-Robot 将任务推理交给 VLM，低级动作控制交由 VLA 模块执行，而 GROOT N-1 则整合语言规划与运动执行于模拟器数据中训练。这类架构为实现更强的泛化与实时性提供了可行路径。

延伸阅读：逆天！Figure AI 全球首个完全端到端机器人AI系统，实现35自由度、200Hz连续精准控制！https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247485644&idx=1&sn=91756fa7bf61134d31206e269bbf5d4f&scene=21#wechat_redirect

如今，VLA 不再只是一个模型，更像是一种快速进化的思维方式：让机器人直接“读懂世界”并“动起来”。

它正在成为连接大模型与真实世界的关键桥梁……