本文基于个人研究兴趣follow具身导航领域论文,对具身导航中的各个任务(视觉探索、视觉导航,包括坐标导航、物品目标导航、实例图像导航、视觉语言导航)相关工作梳理总结,不定期更新,如有疏漏,敬请指出。
文章目录
引言
具身AI:从自我中心感知和与环境的互动中学习,区别于从数据集中学习的AI
具身导航任务分类
- 视觉探索:
使用尽可能少的步数,获取对环境信息的建模表示,例如拓扑图、语义地图、占据地图等
衡量指标:面积(绝对面积/百分比)、物品数量、下游导航任务成功率等 - 视觉导航
衡量指标:成功率(SR)、路径长度加权成功率(SPL)- 坐标导航:给定目标点坐标
- 目标导航:给定目标物品类别
- 实例图像导航:给定目标物品实例图像
- 视觉语言导航(VLN):遵从自然语言指令导航
具身导航方法分类
- 零样本方案:利用现有VLM/LLM能力,结合模块化的传统导航方法,无需训练(e.g. 2023 ICML ESC, 2024 GOAT)
- 模块化学习方案:不同于传统的探索-建图-定位-规划方案,使用AI端到端学习某个模块的技能(探索、建图、规划等)(e.g. 2020 NIPS SemExp)
- 常分为四个模块:视觉编码、建图、探索、规划,各模块可独立学习,模块技能可迁移复用,无需重新训练
- 端到端方案:用端到端神经网络,输入图像+语言/目标,输出导航动作,通常使用模仿学习(IL)/强化学习(RL)在仿真器中训练 (e.g. 2019 DD-PPO, 2023 OVRL-V2)
- 无记忆(不建立全局地图):
- 2020 [ECCV] ORG,从当前观测学习物品关系图,输出策略
- 2022 [CVPR] Habitat-Web,CNN+RNN编码当前图像和语言,输出动作,并基于IL训练
- 有记忆(建立全局地图):
- 2020 [NIPS] MultiON, CNN编码地图和图像,用于长期目标规划
- 无记忆(不建立全局地图):
常用数据集和仿真器
仿真器
论文中最常见的三个仿真器: Habitat、AI2-THOR、GibsonEnv
其他仿真器:综述论文 “2022 [T-ETCI] A survey of embodied AI: from simulators to research tasks” 总结介绍了常用的 9 个具身AI仿真器
数据集
- MP3D:用于 Habitat ObjectNav挑战赛,11个环境,20类目标物品
- HM3D:用于 2022 Habitat ObjectNav挑战赛,20个环境,6类目标物品
- RoboTHOR: 用于 RoboTHOR 2020, 2021 ObjectNav挑战赛,15个环境,12类目标物品,主要是小物品
- Matterport3D simulator: 输入全景RGB,根据自然语言完成 Room-to-Room (R2R) 导航任务
代表性论文
视觉探索
2020 ICLR: Leaning to explore using active neural SLAM
作者:CMU (chaplot)
模块化学习方案:基于神经网络的SLAM+学习策略+传统路径规划
- Global policy网络:输入SLAM位姿和地图,输出长期目标,并基于传统路径规划Fast marching method输出短期目标;
- Local policy 网络:输入图像、短期目标,RNN输出动作
视觉导航
一、Point-goal Nav 坐标点导航
1. 端到端方案
2019 ICLR DD-PPO
相比解析路径规划方法FMM\BFS等,速度快,成本低
二、Object-goal Nav 物品名称导航
综述:2023 SciRob: Navigating to objects in the real world
作者:CMU、Meta(Chaplot大佬,深耕具身导航各任务多年,获得很多届CVPR挑战赛冠军)
论文类型:一篇实证研究,探索现有具身导航方案在仿真和实际中的可行性
- 主要发现:模块化学习方法可以将Policy学到的技能抽象化,sim2real泛化性更好,在真实世界成功率90%,端到端只有23%;
- 最大挑战:图像差异、仿真与现实的失败模式差异
- 模块化学习方法的错误模式:
- 仿真:语义分割错误、重建错误
- 真实:深度误差(噪声、反光)
- 实证研究:
- 经典方法:frontier-based探索+2020 NIPS SemExp
- 模块化学习方法:2020 NIPS SemExp
- 端到端学习:2022 CVPR:Habitat-Web, IL+RL
- 最佳Sim2real途径:仿真+模块化+抽象化(从原始数据抽取任务所需信息,例如输入分割mask,采用BEV语义地图、拓扑图场景表示)
1. 模块化学习方案
2020 [NIPS] SemExp
显式构建语义地图,预测全局目标,局部规划采用传统方法
- 建图:posed rgbd语义分割投影+SLAM重建,得到2D语义栅格
- 全局策略:基于RL学习,输入语义地图和目标名称,输出目标点
- 局部策略:基于FMM,实验发现与基于学习的方法效果差不多
2024 [WACV] MOPA: modular object navigation with PointGoal Agents
训练一个PointNav agent,即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航
数据集:MultiON 2.0
实验:表现不如端到端的 OVRL-V2,但不需要额外训练
- 目标点选取:若地图中无当前寻找的目标,则随机采样点作为目标(实验发现随机Uniform采样比复杂探索策略如 stubborn / frontier / ANS更好)
- 导航:预训练的 PointNav (2019 [ICLR] DD-PPO)
2. 端到端方案
2023 OVRL-V2
- 输入:RGB, 位姿、目标
- 输出:导航动作
- 预训练:MAE自监督预训练 ViT encoder
三、Instance-Image Nav 实例图像导航
1. 零样本模块化方案
2023 [ICCV] Mod-IIN: navigating to objects specified by images
单位:CMU、Meta AI (Chaplot大神)
模块化方案,无需训练
步骤:探索、建图、实例reid(superglue)、目标检测、3D投影、规划
实验:真机部署在 hello robot stretch, 2个环境,导航成功率88%
- 探索:传统 frontier-based
- 建图:2D占据栅格
- 实例 reID: superglue
- 目标检测:Detic
- 路径规划:传统FFM方法
2023 GOAT:go to anything
单位:CMU、Meta AI, Mistral AI (Chaplot大神又一工作)
模块化方案,无需训练
任务:目标导航、图像导航、语言导航
步骤:探索、语义建图、目标检测、实例reid(superglue)、规划
支持语言目标、图像目标、物品目标
实验:真机部署在boston dynamics spot狗、hello robot stretch,9个家庭环境,200+物品目标,成功率83%,可完成1-10个目标序列
对比方案:clip-on-wheels 成功率:51%
- 检测分割:Mask RCNN
- 地图记忆表示:5cm分辨率2D语义占据栅格地图 + 物品实例级图像库
- 语言检索:LLM提取目标名称,再与物品实例记忆进行CLIP匹配
- 图像检索:对裁剪后图像 superglue,实验发现比CLIP匹配成功率高13%
- 路径规划:FMM
2. 端到端方案
2023 OVRL-V2: a simple state-of-the-art baseline for ImageNav and ObjectNav
OVRL 全称: offline visual representation learning
单位:Meta AI、佐治亚理工学院
- 网络设计:图像编码使用ViT+CNN, 策略预测使用LSTM
- 输入:RGB、位姿、目标
- 预训练:使用MAE自监督预训练,HM3D+Gibson数据集预训练ViT encoder
- RL算法:DD-PPO
四、VLN 视觉语言导航
综述:2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
- VLN主要模块:
- 世界模型:理解环境交互
- 人类模型:理解人类指令
- 智能体:理解语言和环境的时空对齐,推理、规划,实现遵照指令的导航
- 分类:
- 端到端模型
- 零样本基础模型
- 结合LLM的可学习大模型
1. 端到端方案(非大模型架构)
2022 CVPR DUET
是很多后续SOTA方法的基础,如 ScaleVLN, HNR, NavGPT-2
- 输入当前全景图,基于graph transformer构建拓扑图
- 根据语言指令和拓扑图,注意力网络预测目标节点(粗粒度:全局特征,细粒度:每个节点的特征)
- 根据最短路径规划,得到下一步导航节点
2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)
可用于连续环境VLN,R2R-CE 任务 SOTA
创新点:基于NeRF预测未来视角
- 基于12个环视图像,基于预训练waypoint prediction模型输出备选导航点位置,并根据深度投影得到3D点云
- 对每个备选位置,搜索3D点云中的最近邻点,根据预训练nerf预测未来的12个视角图像和深度图
- 对未来视角图像,再运行waypoint pred得到未来的备选导航点
- Lookahead vln:将图的各个节点特征及指令输入类似DUET的图注意力网络,预测备选导航点得分,选择最优导航点
- 传统方法输出low-level action
2. 零样本方案(利用现成LLM/VLM能力)
2024 AAAI Nav-GPT
无记忆,只考虑当前视觉描述和推理,LLM规划下一个节点
- 目标检测:Faster RCNN, 图像描述:BLIP-2, 场景概括:gpt 3.5,推理规划:gpt-4
- 缺点:没有长期规划能力
2024 MapGPT
在NavGPT基础上引入地图(记忆),基于GPT-4o,输入观测、动作、地图拓扑图prompt,输出多步规划
2024 Mobility VLA
Google Deepmind 的论文
遥操作 demo tour (类似建图步骤) + 导航
创新点:利用VLM从建图视频帧中找目标
- demo tour 阶段:存下视频帧,同时利用 COLMAP SfM 得到每帧位置,构建拓扑图
- VLN阶段:VLM从事品种找到目标帧,然后传统方法完成low-level导航到目标节点(dijkstra+MPC)
3. 可学习的大模型(LLM架构)
2024 ECCV NavGPT-2
发现:零样本LLM方案表现比端到端模型差40%;微调LLM会损失语言能力
方法:冻结大模型的语言部分,VLM部分可学习,并使用基于DUET的图网络输出动作
2024 Navid
北大王鹤老师的论文
优势:仅依赖RGB序列,无需位姿、深度,即可预测连续导航动作
方法:没有显式的建图,而是把历史帧观测编码为tokens,大模型输出动作类型及强度(距离、角度等)。导航指令和多模态融合部分可学习。