【算法学习笔记】具身导航前世今生：视觉探索、目标导航、实例导航、视觉语言导航论文整理

本文链接：https://blog.csdn.net/qq_40157728/article/details/149667548

本文基于个人研究兴趣follow具身导航领域论文，对具身导航中的各个任务（视觉探索、视觉导航，包括坐标导航、物品目标导航、实例图像导航、视觉语言导航）相关工作梳理总结，不定期更新，如有疏漏，敬请指出。

文章目录

引言
具身导航任务分类
具身导航方法分类
常用数据集和仿真器
- 仿真器
- 数据集
代表性论文

引言

具身AI：从自我中心感知和与环境的互动中学习，区别于从数据集中学习的AI

具身导航任务分类

视觉探索：
使用尽可能少的步数，获取对环境信息的建模表示，例如拓扑图、语义地图、占据地图等
衡量指标：面积（绝对面积/百分比）、物品数量、下游导航任务成功率等
视觉导航
衡量指标：成功率（SR）、路径长度加权成功率（SPL）
- 坐标导航：给定目标点坐标
- 目标导航：给定目标物品类别
- 实例图像导航：给定目标物品实例图像
- 视觉语言导航（VLN）：遵从自然语言指令导航

具身导航方法分类

零样本方案：利用现有VLM/LLM能力，结合模块化的传统导航方法，无需训练(e.g. 2023 ICML ESC, 2024 GOAT)
模块化学习方案：不同于传统的探索-建图-定位-规划方案，使用AI端到端学习某个模块的技能（探索、建图、规划等）（e.g. 2020 NIPS SemExp）
- 常分为四个模块：视觉编码、建图、探索、规划，各模块可独立学习，模块技能可迁移复用，无需重新训练
端到端方案：用端到端神经网络，输入图像+语言/目标，输出导航动作，通常使用模仿学习（IL）/强化学习（RL）在仿真器中训练（e.g. 2019 DD-PPO, 2023 OVRL-V2）
- 无记忆（不建立全局地图）：
  - 2020 [ECCV] ORG，从当前观测学习物品关系图，输出策略
  - 2022 [CVPR] Habitat-Web，CNN+RNN编码当前图像和语言，输出动作，并基于IL训练
- 有记忆（建立全局地图）：
  - 2020 [NIPS] MultiON, CNN编码地图和图像，用于长期目标规划

常用数据集和仿真器

仿真器

论文中最常见的三个仿真器： Habitat、AI2-THOR、GibsonEnv

其他仿真器：综述论文 “2022 [T-ETCI] A survey of embodied AI: from simulators to research tasks” 总结介绍了常用的 9 个具身AI仿真器

数据集

MP3D：用于 Habitat ObjectNav挑战赛，11个环境，20类目标物品
HM3D：用于 2022 Habitat ObjectNav挑战赛，20个环境，6类目标物品
RoboTHOR: 用于 RoboTHOR 2020, 2021 ObjectNav挑战赛，15个环境，12类目标物品，主要是小物品
Matterport3D simulator: 输入全景RGB，根据自然语言完成 Room-to-Room (R2R) 导航任务

代表性论文

视觉探索

2020 ICLR: Leaning to explore using active neural SLAM

作者：CMU (chaplot)
模块化学习方案：基于神经网络的SLAM+学习策略+传统路径规划

Global policy网络：输入SLAM位姿和地图，输出长期目标，并基于传统路径规划Fast marching method输出短期目标；
Local policy 网络：输入图像、短期目标，RNN输出动作

视觉导航

一、Point-goal Nav 坐标点导航

1. 端到端方案

2019 ICLR DD-PPO

相比解析路径规划方法FMM\BFS等，速度快，成本低

二、Object-goal Nav 物品名称导航

综述：2023 SciRob: Navigating to objects in the real world

作者：CMU、Meta（Chaplot大佬，深耕具身导航各任务多年，获得很多届CVPR挑战赛冠军）
论文类型：一篇实证研究，探索现有具身导航方案在仿真和实际中的可行性

主要发现：模块化学习方法可以将Policy学到的技能抽象化，sim2real泛化性更好，在真实世界成功率90%，端到端只有23%；
最大挑战：图像差异、仿真与现实的失败模式差异
模块化学习方法的错误模式：
- 仿真：语义分割错误、重建错误
- 真实：深度误差（噪声、反光）
实证研究：
- 经典方法：frontier-based探索+2020 NIPS SemExp
- 模块化学习方法：2020 NIPS SemExp
- 端到端学习：2022 CVPR：Habitat-Web, IL+RL
最佳Sim2real途径：仿真+模块化+抽象化（从原始数据抽取任务所需信息，例如输入分割mask，采用BEV语义地图、拓扑图场景表示）

1. 模块化学习方案

2020 [NIPS] SemExp

显式构建语义地图，预测全局目标，局部规划采用传统方法

建图：posed rgbd语义分割投影+SLAM重建，得到2D语义栅格
全局策略：基于RL学习，输入语义地图和目标名称，输出目标点
局部策略：基于FMM，实验发现与基于学习的方法效果差不多

2024 [WACV] MOPA: modular object navigation with PointGoal Agents

训练一个PointNav agent，即可基于模块化的目标检测、语义地图、探索、规划完成多目标导航
数据集：MultiON 2.0
实验：表现不如端到端的 OVRL-V2，但不需要额外训练

目标点选取：若地图中无当前寻找的目标，则随机采样点作为目标（实验发现随机Uniform采样比复杂探索策略如 stubborn / frontier / ANS更好）
导航：预训练的 PointNav (2019 [ICLR] DD-PPO)

2. 端到端方案

2023 OVRL-V2

输入：RGB, 位姿、目标
输出：导航动作
预训练：MAE自监督预训练 ViT encoder

三、Instance-Image Nav 实例图像导航

1. 零样本模块化方案

2023 [ICCV] Mod-IIN: navigating to objects specified by images

单位：CMU、Meta AI (Chaplot大神)
模块化方案，无需训练
步骤：探索、建图、实例reid（superglue）、目标检测、3D投影、规划
实验：真机部署在 hello robot stretch, 2个环境，导航成功率88%

探索：传统 frontier-based
建图：2D占据栅格
实例 reID: superglue
目标检测：Detic
路径规划：传统FFM方法

2023 GOAT：go to anything

单位：CMU、Meta AI, Mistral AI (Chaplot大神又一工作)
模块化方案，无需训练
任务：目标导航、图像导航、语言导航
步骤：探索、语义建图、目标检测、实例reid（superglue）、规划
支持语言目标、图像目标、物品目标
实验：真机部署在boston dynamics spot狗、hello robot stretch，9个家庭环境，200+物品目标，成功率83%，可完成1-10个目标序列
对比方案：clip-on-wheels 成功率：51%