【算法学习笔记】具身导航前世今生:视觉探索、目标导航、实例导航、视觉语言导航论文整理

本文基于个人研究兴趣follow具身导航领域论文,对具身导航中的各个任务(视觉探索、视觉导航,包括坐标导航、物品目标导航、实例图像导航、视觉语言导航)相关工作梳理总结,不定期更新,如有疏漏,敬请指出。

引言

具身AI:从自我中心感知与环境的互动中学习,区别于从数据集中学习的AI

具身导航任务分类

  1. 视觉探索:
    使用尽可能少的步数,获取对环境信息的建模表示,例如拓扑图、语义地图、占据地图等
    衡量指标:面积(绝对面积/百分比)、物品数量、下游导航任务成功率等
  2. 视觉导航
    衡量指标:成功率(SR)、路径长度加权成功率(SPL)
    • 坐标导航:给定目标点坐标
    • 目标导航:给定目标物品类别
    • 实例图像导航:给定目标物品实例图像
    • 视觉语言导航(VLN):遵从自然语言指令导航

具身导航方法分类

  • 零样本方案:利用现有VLM/LLM能力,结合模块化的传统导航方法,无需训练(e.g. 2023 ICML ESC, 2024 GOAT)
  • 模块化学习方案:不同于传统的探索-建图-定位-规划方案,使用AI端到端学习某个模块的技能(探索、建图、规划等)(e.g. 2020 NIPS SemExp)
    • 常分为四个模块:视觉编码、建图、探索、规划,各模块可独立学习,模块技能可迁移复用,无需重新训练
  • 端到端方案:用端到端神经网络,输入图像+语言/目标,输出导航动作,通常使用模仿学习(IL)/强化学习(RL)在仿真器中训练 (e.g. 2019 DD-PPO, 2023 OVRL-V2)
    • 无记忆(不建立全局地图)
      • 2020 [ECCV] ORG,从当前观测学习物品关系图,输出策略
      • 2022 [CVPR] Habitat-Web,CNN+RNN编码当前图像和语言,输出动作,并基于IL训练
    • 有记忆(建立全局地图)
      • 2020 [NIPS] MultiON, CNN编码地图和图像,用于长期目标规划

常用数据集和仿真器

仿真器

论文中最常见的三个仿真器: Habitat、AI2-THOR、GibsonEnv

其他仿真器:综述论文 “2022 [T-ETCI] A survey of embodied AI: from simulators to research tasks” 总结介绍了常用的 9 个具身AI仿真器

数据集

  • MP3D:用于 Habitat ObjectNav挑战赛,11个环境,20类目标物品
  • HM3D:用于 2022 Habitat ObjectNav挑战赛,20个环境,6类目标物品
  • RoboTHOR: 用于 RoboTHOR 2020, 2021 ObjectNav挑战赛,15个环境,12类目标物品,主要是小物品
  • Matterport3D simulator: 输入全景RGB,根据自然语言完成 Room-to-Room (R2R) 导航任务

代表性论文

视觉探索

2020 ICLR: Leaning to explore using active neural SLAM

作者:CMU (chaplot)
模块化学习方案:基于神经网络的SLAM+学习策略+传统路径规划

  • Global policy网络:输入SLAM位姿和地图,输出长期目标,并基于传统路径规划Fast marching method输出短期目标;
  • Local policy 网络:输入图像、短期目标,RNN输出动作

视觉导航

一、Point-goal Nav 坐标点导航

1. 端到端方案
2019 ICLR DD-PPO

相比解析路径规划方法FMM\BFS等,速度快,成本低

二、Object-goal Nav 物品名称导航

综述:2023 SciRob: Navigating to objects in the real world

作者:CMU、Meta(Chaplot大佬,深耕具身导航各任务多年,获得很多届CVPR挑战赛冠军)
论文类型:一篇实证研究,探索现有具身导航方案在仿真和实际中的可行性

  • 主要发现:模块化学习方法可以将Policy学到的技能抽象化,sim2real泛化性更好,在真实世界成功率90%,端到端只有23%;
  • 最大挑战:图像差异、仿真与现实的失败模式差异
  • 模块化学习方法的错误模式:
    • 仿真:语义分割错误、重建错误
    • 真实:深度误差(噪声、反光)
  • 实证研究:
    • 经典方法:frontier-based探索+2020 NIPS SemExp
    • 模块化学习方法:2020 NIPS SemExp
    • 端到端学习:2022 CVPR:Habitat-Web, IL+RL
  • 最佳Sim2real途径:仿真+模块化+抽象化(从原始数据抽取任务所需信息,例如输入分割mask,采用BEV语义地图、拓扑图场景表示)
1. 模块化学习方案
2020 [NIPS] SemExp

显式构建语义地图,预测全局目标,局部规划采用传统方法

  • 建图:posed rgbd语义分割投影+SLAM重建,得到2D语义栅格
  • 全局策略:基于RL学习,输入语义地图和目标名称,输出目标点
  • 局部策略:基于FMM,实验发现与基于学习的方法效果差不多
2024 [WACV] MOPA: modular object navigation with PointGoal Agents

训练一个PointNav agent,即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航
数据集:MultiON 2.0
实验:表现不如端到端的 OVRL-V2,但不需要额外训练

  • 目标点选取:若地图中无当前寻找的目标,则随机采样点作为目标(实验发现随机Uniform采样比复杂探索策略如 stubborn / frontier / ANS更好)
  • 导航:预训练的 PointNav (2019 [ICLR] DD-PPO)
2. 端到端方案
2023 OVRL-V2
  • 输入:RGB, 位姿、目标
  • 输出:导航动作
  • 预训练:MAE自监督预训练 ViT encoder

三、Instance-Image Nav 实例图像导航

1. 零样本模块化方案
2023 [ICCV] Mod-IIN: navigating to objects specified by images

单位:CMU、Meta AI (Chaplot大神)
模块化方案,无需训练
步骤:探索、建图、实例reid(superglue)、目标检测、3D投影、规划
实验:真机部署在 hello robot stretch, 2个环境,导航成功率88%

  • 探索:传统 frontier-based
  • 建图:2D占据栅格
  • 实例 reID: superglue
  • 目标检测:Detic
  • 路径规划:传统FFM方法
2023 GOAT:go to anything

单位:CMU、Meta AI, Mistral AI (Chaplot大神又一工作)
模块化方案,无需训练
任务:目标导航、图像导航、语言导航
步骤:探索、语义建图、目标检测、实例reid(superglue)、规划
支持语言目标、图像目标、物品目标
实验:真机部署在boston dynamics spot狗、hello robot stretch,9个家庭环境,200+物品目标,成功率83%,可完成1-10个目标序列
对比方案:clip-on-wheels 成功率:51%

  • 检测分割:Mask RCNN
  • 地图记忆表示:5cm分辨率2D语义占据栅格地图 + 物品实例级图像库
  • 语言检索:LLM提取目标名称,再与物品实例记忆进行CLIP匹配
  • 图像检索:对裁剪后图像 superglue,实验发现比CLIP匹配成功率高13%
  • 路径规划:FMM
2. 端到端方案
2023 OVRL-V2: a simple state-of-the-art baseline for ImageNav and ObjectNav

OVRL 全称: offline visual representation learning
单位:Meta AI、佐治亚理工学院

  • 网络设计:图像编码使用ViT+CNN, 策略预测使用LSTM
  • 输入:RGB、位姿、目标
  • 预训练:使用MAE自监督预训练,HM3D+Gibson数据集预训练ViT encoder
  • RL算法:DD-PPO

四、VLN 视觉语言导航

综述:2024 TMLR:Vision-and-language navigation today and tomorrow: a survey in the era of foundation models
  • VLN主要模块:
    • 世界模型:理解环境交互
    • 人类模型:理解人类指令
    • 智能体:理解语言和环境的时空对齐,推理、规划,实现遵照指令的导航
  • 分类:
    • 端到端模型
    • 零样本基础模型
    • 结合LLM的可学习大模型
1. 端到端方案(非大模型架构)
2022 CVPR DUET

是很多后续SOTA方法的基础,如 ScaleVLN, HNR, NavGPT-2

  1. 输入当前全景图,基于graph transformer构建拓扑图
  2. 根据语言指令和拓扑图,注意力网络预测目标节点(粗粒度:全局特征,细粒度:每个节点的特征)
  3. 根据最短路径规划,得到下一步导航节点
2024 CVPR Lookahead exploration with neural radiance representation for continuous vision-language navigation(HNR)

可用于连续环境VLN,R2R-CE 任务 SOTA
创新点:基于NeRF预测未来视角

  1. 基于12个环视图像,基于预训练waypoint prediction模型输出备选导航点位置,并根据深度投影得到3D点云
  2. 对每个备选位置,搜索3D点云中的最近邻点,根据预训练nerf预测未来的12个视角图像和深度图
  3. 对未来视角图像,再运行waypoint pred得到未来的备选导航点
  4. Lookahead vln:将图的各个节点特征及指令输入类似DUET的图注意力网络,预测备选导航点得分,选择最优导航点
  5. 传统方法输出low-level action
2. 零样本方案(利用现成LLM/VLM能力)
2024 AAAI Nav-GPT

无记忆,只考虑当前视觉描述和推理,LLM规划下一个节点

  • 目标检测:Faster RCNN, 图像描述:BLIP-2, 场景概括:gpt 3.5,推理规划:gpt-4
  • 缺点:没有长期规划能力
2024 MapGPT

在NavGPT基础上引入地图(记忆),基于GPT-4o,输入观测、动作、地图拓扑图prompt,输出多步规划

2024 Mobility VLA

Google Deepmind 的论文
遥操作 demo tour (类似建图步骤) + 导航
创新点:利用VLM从建图视频帧中找目标

  • demo tour 阶段:存下视频帧,同时利用 COLMAP SfM 得到每帧位置,构建拓扑图
  • VLN阶段:VLM从事品种找到目标帧,然后传统方法完成low-level导航到目标节点(dijkstra+MPC)
3. 可学习的大模型(LLM架构)
2024 ECCV NavGPT-2

发现:零样本LLM方案表现比端到端模型差40%;微调LLM会损失语言能力
方法:冻结大模型的语言部分,VLM部分可学习,并使用基于DUET的图网络输出动作

2024 Navid

北大王鹤老师的论文
优势:仅依赖RGB序列,无需位姿、深度,即可预测连续导航动作
方法:没有显式的建图,而是把历史帧观测编码为tokens,大模型输出动作类型及强度(距离、角度等)。导航指令和多模态融合部分可学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值