【万字长文】大模型训练秘籍：SFT记忆数据，RL实现泛化，一文读懂两种后训练技术！-CSDN博客

本文链接：https://blog.csdn.net/Trb201013/article/details/151224194

简介

文章比较了SFT和RL在基础模型后训练中的效果。研究发现SFT倾向于记忆训练数据，难以泛化；而RL在文本规则和视觉环境中均表现出良好泛化能力，并能提升模型视觉识别能力。尽管RL在泛化方面更优，SFT对稳定模型输出格式、支持后续RL训练仍具重要作用。研究通过GeneralPoints和V-IRL环境验证了这些发现。

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training SFT

SFT会记忆，RL能泛化：基础模型后训练的比较研究

https://arxiv.org/pdf/2501.17161

摘要

监督微调（SFT）和强化学习（RL）是基础模型广泛使用的后训练技术。然而，它们在提升模型于基于规则的推理任务中的泛化能力方面各自所起的作用仍不明确。本文研究了SFT与RL在泛化和记忆化方面的比较效果，重点关注基于文本和视觉的推理任务。我们引入了GeneralPoints——一种算术推理纸牌游戏，同时也考虑了V-IRL——一种真实世界的导航环境，以评估使用SFT和RL训练的模型在面对新颖的文本规则和视觉领域中的未见变体时的泛化能力。我们发现，尤其是采用基于结果的奖励进行训练时，RL在基于规则的文本环境和视觉环境中均表现出良好的泛化能力。相比之下，SFT倾向于记忆训练数据，在两种场景下均难以对分布外数据实现泛化。进一步分析表明，RL能够提升模型底层的视觉识别能力，从而促进其在视觉领域的增强泛化。尽管RL在泛化方面表现更优，但我们发现SFT对于有效的RL训练仍然具有帮助作用：SFT稳定了模型的输出格式，从而使后续的RL能够实现性能提升。这些发现表明，RL在获取复杂多模态任务中的可泛化知识方面具有优势。

1 引言
尽管监督微调（SFT）和强化学习（RL）都被广泛用于基础模型的训练（OpenAI, 2023b; Google, 2023; Jaech et al., 2024; DeepSeekAI et al., 2025），但它们对泛化能力（Bousquet & Elisseeff, 2000; Zhang et al., 2021）的不同影响仍不明确，这使得构建可靠且鲁棒的人工智能系统变得具有挑战性。分析基础模型（Bommasani et al., 2021; Brown et al., 2020）泛化能力的一个关键挑战是，将数据记忆化1与可迁移原则的习得区分开来。因此，我们探讨一个核心问题：SFT和RL究竟是主要记忆训练数据（Allen-Zhu & Li, 2023a; Ye et al., 2024; Kang et al., 2024），还是学习到了可泛化的规则，从而能够适应新的任务变体。

为回答这一问题，我们聚焦于泛化的两个方面：基于文本的规则泛化和视觉泛化。在文本规则方面，我们研究模型将已学习的规则（通过文本指令给出）应用于这些规则变体的能力（Zhu et al., 2023; Yao et al., 2024; Ye et al., 2024）。对于视觉-语言模型（VLMs），视觉泛化衡量的是在给定任务中，当视觉输入（如颜色和空间布局）发生变化时，模型性能的稳定性。为了研究基于文本和视觉的泛化能力，我们考察了两个体现规则和视觉变体的不同任务。我们的第一个任务是GeneralPoints，这是一种原创的纸牌游戏任务，类似于RL4VLM中的Points24（Zhai et al., 2024a），旨在评估模型的算术推理能力。模型接收四张卡片（以文本描述或图像形式呈现），并被要求使用每张卡片上的数字值恰好一次，计算出一个目标数值（默认为24）。其次，我们采用了V-IRL（Yang et al., 2024a），一种真实世界的导航任务，用于评估模型的空间推理能力。

我们采用类似于Zhai等（2024a）的多步强化学习框架，在骨干模型上先进行监督微调（SFT）（Dubey et al., 2024），再启动强化学习，并采用顺序修订形式（Snell et al., 2024）。在GeneralPoints和V-IRL两个任务中，我们观察到RL能够学习到可泛化的规则（以文本形式表达），其在分布内任务上的性能提升也能迁移到未见过的规则上。相比之下，SFT似乎只是记忆了训练时的规则，无法实现泛化（见图1中的示例）。

除了基于文本的规则泛化，我们进一步研究了视觉领域的泛化能力，发现RL在视觉分布外（OOD）任务中同样表现出泛化能力，而SFT则继续表现不佳。作为视觉分布外泛化能力的副产品，我们的多轮次RL方法在V-IRL mini基准测试上取得了最先进的性能，相对提升达+33.8%（从44.0%提升至77.8%）（Yang et al., 2024a），突显了RL的泛化能力。为了理解RL如何影响模型的视觉能力，我们对GeneralPoints任务进行了额外分析，发现使用基于结果的奖励函数（Cobbe et al., 2021）进行RL训练，能够提升模型的视觉识别能力。

尽管与SFT相比，RL表现出更优越的泛化能力，但我们发现SFT仍然必要，因为它有助于稳定模型的输出格式，从而使RL能够实现其性能提升。最后但同样重要的是，我们观察到，通过增加最大推理步数来扩大推理时的计算量，可以带来更好的泛化效果。

相关工作

后训练（Post-training）。后训练对于提升模型性能至关重要（Zhang et al., 2022; Hoffmann et al., 2023; OpenAI, 2023b; Google, 2023; Touvron et al., 2023）。这一阶段通常采用大规模监督微调（SFT）（Radford et al., 2018; Brown et al., 2020; Radford et al., 2021; Wei et al., 2022a; Chung et al., 2022; Zhou et al., 2024a）和/或强化学习（RL）（Ziegler et al., 2019; Ouyang et al., 2022; Sun et al., 2024; Abdulhai et al., 2023; Zhou et al., 2024b; Zhai et al., 2024a）。SFT通过在特定任务的、通常是指令格式的数据集上训练，将预训练模型适配到下游任务。先前的研究，如FLAN（Wei et al., 2022a），表明在多样化的指令微调数据集上进行微调，能显著提升模型在未见任务上的零样本性能。此外，LIMA（Zhou et al., 2024a）表明，监督微调可作为“格式教师”，有效调整模型输出以符合期望的格式，同时充分利用预训练大语言模型（LLM）的能力。相比之下，强化学习（RL）（Ziegler et al., 2019; Ouyang et al., 2022; Sun et al., 2024; Ramamurthy et al., 2023; Abdulhai et al., 2023; Zhou et al., 2024b; Zhai et al., 2024a）主要用于使模型与人类偏好对齐，或训练基础模型以解决特定任务（Abdulhai et al., 2023; Zhou et al., 2024b; Zhai et al., 2024a; Chen et al., 2024b）。我们的工作与先前研究不同之处在于，我们旨在比较分析SFT和RL在大语言模型（LLM）和视觉-语言模型（VLM）上的泛化与记忆化表现，而以往研究大多仅关注这两种后训练方法中的一种，或仅研究LLM或VLM，或仅聚焦于单一的后训练方法。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

大语言模型/视觉-语言模型中的记忆化与泛化。已有若干研究探讨了神经网络中记忆化与泛化之间的相互关系（Han et al., 2022; Carlini et al., 2022; Yang et al., 2023）。在大语言模型（LLM）中，记忆化表现为模型对训练数据的记忆（Carlini et al., 2022; Jiang et al., 2024; Kang et al., 2024），而泛化则反映模型输出分布与预训练数据分布之间的差异（Zhang et al., 2023）。先前研究表明，LLM在较简单、知识密集型任务上更容易过拟合，而在更复杂、推理密集型任务上则表现出更强的泛化能力（Wang et al., 2024; Qi et al., 2024）。例如，近期研究（Ye et al., 2024; Allen-Zhu, 2024; Allen-Zhu & Li, 2023a;b; 2024; Tong et al., 2024b）表明，LLM能够在自回归生成之前预先计算推理图，从而发展出超越训练数据的推理能力，这为泛化提供了有力证据。我们的研究采取不同路径，通过探究不同后训练范式在文本规则变体和视觉变体背景下对记忆化与泛化的影响，开展比较研究。我们在单模态（LLM）和多模态（VLM）设置下进行了对比分析，并证明RL在泛化性能上优于SFT。

扩大推理时计算量（Scaling up inference-time compute）。近年来，越来越多的研究聚焦于通过扩大推理时的计算量来提升模型性能（Wei et al., 2022b; Yao et al., 2024; Snell et al., 2024; Jaech et al., 2024）。早期研究（Wei et al., 2022b; Yao et al., 2024）促使模型生成中间推理步骤，并在输出最终答案前扩展响应。后续工作（Zelikman et al., 2022; Feng et al., 2023; Tian et al., 2024; Chen et al., 2024a; Snell et al., 2024）表明，在推理过程中微调验证器（verifiers）可提高模型准确性，有效利用测试时（test-time）的计算资源。值得注意的是，近期发现（Jaech et al., 2024; DeepSeekAI et al., 2025）揭示了推理时计算的“扩展规律”（scaling laws），表明随着计算资源的增加，模型性能显著提升。我们的工作从两个方面在此基础上展开。首先，我们将推理时验证的思路融入多轮次强化学习框架中，使模型能够识别并纠正自身错误。其次，我们考察了推理时验证对RL泛化能力的影响，表明增加推理时验证的计算量（以最大验证步数衡量）是RL实现泛化的关键。

提升视觉-语言模型（VLMs）的视觉能力。尽管VLM在诸多挑战性任务中表现出卓越能力，例如解答高等级大学考试题目（Lu et al., 2023; Yue et al., 2024a;b）和空间理解任务（Yang et al., 2024a;b），但它们在视觉感知方面仍存在局限（Zhai et al., 2024a;b; Tong et al., 2024c;d; Rahmanzadehgervi et al., 2024）。以往增强VLM视觉感知能力的努力包括：结合多个视觉编码器（Tong et al., 2024d; Kar et al., 2025; Tong et al., 2024a）、构建高质量的SFT数据（Chen et al., 2023; Liu et al., 2024; Tong et al., 2024a），以及通过解冻视觉主干网络来改进SFT训练策略（Liu et al., 2023; Tong et al., 2024a）。尽管这些先前工作主要集中在SFT阶段的实验，我们的研究则表明，强化学习（RL）同样可以提升视觉感知能力。

3 预备知识

评估任务

为了评估不同后训练方法的泛化能力，我们选择了两个任务，每个任务都提供了规则和视觉变化。第一个任务，GeneralPoints，是我们设计的一个新环境，用于评估算术推理能力（第4.1节）。第二个任务，V-IRL（Yang et al., 2024a），旨在检验模型在开放世界视觉导航领域的推理能力（第4.2节）。

4.1. GeneralPoints 环境

我们的原始GeneralPoints环境，基于Points24环境（Zhai et al., 2024a）实现，旨在评估算术推理的泛化能力。环境中的每个状态 s 包含4张卡片，描述为文本（在GP-L变体中）或以图像形式呈现（在GP-VL变体中）；见图2左侧的GeneralPoints的视觉示例。目标是通过恰好使用卡片中的所有4个数字一次来生成一个等于目标数字（默认为24）的方程。状态-动作转换的详细示例在附录A.2中提供。注意，当GeneralPoints的输入以图像形式呈现（GP-VL）时，它自然引入了额外的视觉挑战，要求VLM在解决方程之前识别所有卡片。

规则变体（Rule variations）。为了研究模型是真正学会了算术运算，还是仅仅记忆了后训练数据，我们在GeneralPoints任务中引入了规则变体。这些变体包括将符号’J’、‘Q’和’K’分别解释为’11’、‘12’和’13’，或者统一解释为数字’10’。这些规则变化确保了对模型在不同设置下算术推理泛化能力的严格评估。每种规则都在输入提示中以文本形式明确指定，参见图3中的“{tasks rules}”部分。为了研究基于规则的泛化能力，我们使用一种规则对模型进行后训练，然后使用另一种不同的规则进行评估。

视觉变体（Visual variations）。GeneralPoints环境也可以自然地进行定制，以评估模型在不同视觉变体下的泛化能力。由于主要的视觉挑战是识别每张卡片的数字，而与卡片的颜色无关，因此我们将不同颜色的卡片视为该任务的视觉变体。在视觉泛化设置中，我们使用一种颜色的卡片训练模型，然后使用另一种颜色的卡片测试其分布外（OOD）性能。

4.2 V-IRL 环境

尽管 GeneralPoints 环境旨在评估算术推理能力，我们进一步采用 V-IRL 环境（Yang 等，2024a）来研究在使用真实视觉输入的开放世界导航领域中的空间推理能力。与 GeneralPoints 类似，我们考虑该环境的两个版本：一个（V-IRL-L）仅包含纯语言描述²，另一个（V-IRL-VL）包含视觉-语言输入。V-IRL 中的主要视觉挑战是在采取动作之前，从视觉观测中识别出不同的地标³。任务目标是根据包含空间信息的一系列指令，导航至目标位置。一个环境步骤的详细示例如附录 B.2 所示。

规则变体（Rule variations）。为了评估模型是否真正具备空间知识，还是仅仅记忆了后训练数据，我们考虑两种不同的动作空间配置。第一种变体采用绝对朝向动作空间，包括 {‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。第二种变体采用相对朝向动作空间，包含 {‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。这种相对配置分别将当前朝向向左或向右调整 90 度或 45 度。图 4 展示了 V-IRL 中导航任务的整体示意图，图 13（见附录 B.2）则详细展示了 V-IRL 中的状态-动作转换过程。

视觉变体（Visual variations）。V-IRL 中的关键视觉挑战是从视觉观测中识别地标（例如，图 4 中的绿色部分）。由于 V-IRL 环境包含来自不同城市的视觉观测，我们可以通过在一个地点训练模型进行导航，然后在其他不同地点评估其性能，来检验其在 V-IRL 中的视觉泛化能力。

结果

在本节中，我们展示了一系列实验，旨在研究通过强化学习（RL）和监督微调（SFT）进行后训练所引发的模型泛化能力。我们采用 Llama-3.2-Vision-11B（Dubey 等，2024）作为骨干模型。遵循 RLHF（Ouyang 等，2022）和 RL4VLM（Zhai 等，2024a）的标准流程，我们在运行 RL 之前先通过 SFT 对模型进行初始化。我们具体研究以下问题：第 5.1 节：SFT 或 RL 如何影响模型对不同规则的泛化能力？第 5.2 节：当模型包含视觉组件时，RL/SFT 如何影响其对不同视觉变体的泛化能力？第 5.3 节：RL/SFT 如何影响视觉-语言模型（VLM）中的视觉识别能力？第 5.4 节：SFT 在 RL 训练中扮演什么角色？第 5.5 节：验证迭代次数如何影响泛化能力？

5.1 规则间的泛化

我们在 GeneralPoints 和 V-IRL 上评估不同后训练方法的性能，这两个任务各自包含纯语言版本（-L）和视觉-语言版本（-VL），并且均涵盖规则变体。对于每个任务，我们分别在单一规则上对 RL 和 SFT 的训练计算量进行扩展。我们将模型在训练规则上的表现视为分布内（ID）性能，而在未见规则上的表现则衡量其分布外（OOD）泛化能力。在 GeneralPoints 中，分布内（ID）情况将 ‘J’、‘Q’、‘K’ 均视为 10，而分布外（OOD）情况则分别解释为 11、12 和 13。对于 V-IRL，分布内（ID）情况采用绝对朝向坐标系，而分布外（OOD）情况使用相对朝向动作空间。其他细节和额外实验设置见附录 C。

RL 实现泛化，SFT 导致记忆。如图 5 所示，RL 在所有任务（包括单模态（LLM）和多模态（VLM））上均持续提升分布外（OOD）性能。具体而言，图 6 显示，RL 在 GP-L 上提升了 +3.5%（从 11.5% 提升至 15.0%），在 V-IRL-L 上提升了 +11.0%（从 80.8% 提升至 91.8%）。即使在 VLM 中面临额外的视觉识别挑战，RL 仍保持稳定的性能提升：在 GP-VL 上提升了 +3.0%（从 11.2% 提升至 14.2%），在 V-IRL-VL 上提升了 +9.3%（从 35.7% 提升至 45.0%）。相比之下，SFT 在所有任务的所有分布外（OOD）评估中均表现出性能下降：在 GP-L 上下降了 -8.1%（从 11.5% 降至 3.4%），在 V-IRL-L 上下降了 -79.5%（从 80.8% 降至 1.3%），在 GP-VL 上下降了 -5.6%（从 11.2% 降至 5.6%），在 V-IRL-VL 上下降了 -33.2%（从 35.7% 降至 2.5%）。

5.2 视觉分布外任务中的泛化

第5.1节表明，RL在规则变体之间实现了泛化，而SFT则表现出相反的趋势。由于视觉-语言模型（VLM）还包含视觉模态，我们接下来研究视觉变体对分布外（OOD）泛化的影响。对于GeneralPoints，我们使用黑色花色（♠, ♣）训练VLM，并在红色花色（♥, ♦）上测试其分布外性能。对于V-IRL，我们在纽约市采集的路径上训练模型，并在原始的V-IRL VLN mini基准测试集上进行评估，该基准集包含来自全球多个城市的路径（详见附录B.1）。需要注意的是，本节实验中所使用的规则保持一致。

RL在视觉分布外任务中实现泛化。如图7所示，我们观察到RL在视觉分布外任务中仍能实现泛化，而SFT继续表现不佳。具体而言，在GP-VL和V-IRL-VL任务中，RL的性能分别提升了+17.6%（从23.6%提升至41.2%）和+61.1%（从16.7%提升至77.8%），而SFT的性能则分别下降了-9.9%（从23.6%降至13.7%）和-5.6%（从16.7%降至11.1%）。作为本次视觉分布外研究的副产品，我们还发现，我们的多轮次RL方法在V-IRL mini基准测试上的性能相比之前最优结果（见Yang等，2024a的表5）提升了+33.8%（从44.0%提升至77.8%）。值得注意的是，与V-IRL中先前的最优方法不同——后者依赖于两阶段VLM-LLM协同技术和针对闭源模型（OpenAI, 2023a）的定制化提示工程——我们的端到端RL方法使一个开源模型（Dubey等，2024）达到了更优的性能。

5.3 RL提升视觉能力

基于上文第5.2节中“使用RL训练的VLM能够泛化到视觉分布外任务”的观察，我们提出一个自然的后续问题：RL如何影响VLM的视觉能力？为研究这一问题，我们在GP-VL环境中进行了额外的消融实验，评估RL和SFT在分布外任务中的表现，同时评估模型从输入图像中识别四张卡片的视觉识别准确率。特别地，我们研究通过RL/SFT扩展后训练计算量，如何影响基于规则的分布外泛化能力（图8左侧），以及视觉识别准确率和视觉分布外泛化能力（图8右侧）。

扩大RL训练可提升VLM训练中的视觉识别准确率。如图8所示，我们观察到VLM的视觉识别准确率在很大程度上影响整体性能，这一点在Zhong等（2024）的研究中也有类似发现。此外，扩大RL的计算量也能提升视觉识别准确率，这是其泛化能力带来的副产品；而扩大SFT的计算量则会同时降低视觉识别准确率和整体性能。更多实验结果见附录D.1中的图16和图17。

5.4 SFT在RL训练中的作用

尽管如前所述，RL在泛化模型的推理能力和视觉能力方面具有优势，但实验流程中仍是在SFT之后再启动RL。在本小节中，我们关注另一个关键问题：SFT对RL训练是否必要？为回答这一问题，我们进行了额外实验，直接在纯语言场景下，将端到端RL应用于基础模型Llama3.2的后训练，使用GeneralPoints任务（见图9）。

当骨干模型无法遵循指令时，SFT对RL训练是必要的。图9显示，如果没有SFT，所有端到端RL的训练尝试均未能取得改进。更具体地说，我们观察到在没有SFT的情况下，基础模型的指令遵循能力较差。附录D.3中的图20提供了一个详细的失败案例，显示基础模型Llama-3.2-Vision-11B倾向于生成冗长、离题且结构混乱的响应。这一问题导致无法提取与任务相关的信息和奖励信号，从而无法进行有效的RL训练。需要注意的是，由于骨干模型不同，我们的结果并不与DeepSeekAI等（2025）的研究相矛盾，后者认为SFT在下游RL训练中并非必要。

5.5 验证迭代的作用

验证是我们在多步训练与评估流程中的另一个关键组成部分（见图2和图3）。为了验证其必要性并更好地理解其影响，我们使用GP-L任务，在不同验证迭代次数{1, 3, 5, 10}下进行了RL实验（见图10）。

增加验证次数可提升泛化能力。如图10所示，我们观察到，随着验证步骤的增加，RL的泛化能力进一步增强。更具体而言，在所有实验保持相同计算预算的情况下，我们观察到性能提升了+2.15%（3步）、+2.99%（5步）和+5.99%（10步）。相比之下，在仅使用一次验证步骤的情况下，分布外（OOD）性能仅获得了+0.48%的微小提升。

结论、讨论与局限性

在本文中，我们对基础模型后训练技术（特别是强化学习RL和监督微调SFT）的泛化效果进行了全面分析。通过对GeneralPoints和V-IRL任务的大量实验，我们证明了RL在学习可泛化知识方面表现出更优的性能，而SFT则倾向于仅仅记忆训练数据，这一现象在规则变体和视觉变体上均普遍存在。该现象在多模态的算术推理和空间推理能力中均保持一致。此外，我们还研究了RL对视觉识别能力的影响、SFT的作用以及验证步骤的作用。在研究过程中，有两个挑战尚未解决。

SFT在GP-VL上的失败问题。在图5的GP-VL结果中，我们观察到SFT未能达到与RL相当的分布内（in-distribution）性能。为了减轻超参数选择带来的方差影响，我们额外进行了10次实验，尝试了不同的学习率和可调组件（见图16），但这些实验均未表现出像RL那样的显著上升趋势（见图17）。

鉴于我们观察到扩大SFT训练会降低视觉识别能力（图8），我们推测SFT可能在推理相关的词元（tokens）上发生了局部过拟合，而忽视了识别相关的词元，这可能是因为推理词元的出现频率更高（见图11作为示例）。我们将进一步的探究留待未来工作。

RL在边缘情况下的局限性。如第5.4节所述，SFT对于在Llama-3.2模型上有效开展RL训练是必要的。我们进一步研究了将RL应用于一个过度微调的SFT检查点的情况。如图19所示，当从这样的检查点开始时，RL无法恢复分布外（OOD）性能。图21展示了一些失败案例，其中模型完全退化为仅遵循训练时的规则。这些结果，结合第5.4节的发现，表明当RL应用于严重欠拟合或过拟合的初始检查点时，其效果有限。未来需要进一步研究，以明确SFT在何种条件下能够促进有效的RL训练。

B. V-IRL 环境的详细信息

与附录 A 类似，我们在此呈现第 4.2 节中讨论的 V-IRL 环境的设计细节。首先，我们介绍该环境所使用的数据库（附录 B.1），并展示状态转移的示例（附录 B.2）。接着，我们通过解释其基本组成单元——路径（route）——来描述该环境。最后，我们概述了为将原始 V-IRL 环境适配于强化学习训练而进行的修改及奖励机制设计（附录 B.3）。

B.1. 数据

我们利用 Yang 等（2024a）的数据收集流程，构建了一个包含来自纽约市的 1000 条独特路径的训练数据库。所有基于规则变体的实验以及视觉分布内实验均使用从此数据库中随机采样的路径进行评估。对于视觉分布外实验，我们直接采用 Yang 等（2024a）提供的 VLN mini 基准测试集。该基准集包含来自九个城市的 18 条不同路径：米兰、新德里、布宜诺斯艾利斯、伦敦、香港、纽约、墨尔本、拉各斯和旧金山，每个城市两条路径。

B.2 状态转移动态的详细示例

我们在图13（视觉与语言）和图14（纯语言）中提供了V-IRL环境的详细状态转移示例。

B.3 环境设计的其他细节

路径（route）的概念。路径是V-IRL环境中的基本导航对象。如图4所示，每条路径对应一条真实世界的路线，包含相关的语言指令和视觉信号。以图4为例，一条路径包括以下组成部分：

目的地：Shuka
起点：Start
转弯点：The Dutch, Lola Taverna
直行道路：连接转弯点、起点和目的地的道路
街景：每个可移动点的360度全景视图
专家信息（Oracle information）：每个可移动点的专家观测数据
专家轨迹
指令

尽管图4、图13和图14中的指令呈现格式不同，但它们传达的信息是等价的，其中图4使用的是自然语言。

简化与参数设置。我们对Yang等（2024a）提出的原始V-IRL设计进行了简化，以更好地适应强化学习训练。修改内容包括：移除原有的两阶段导航流程（该流程需要独立的视觉检测器处理街景），以及取消在线查询机制，以减少训练时间和成本。我们的V-IRL环境相比原始设计增加了两个可配置参数：

C. 实验设置

本节详细说明第5节中使用的实验设置。我们首先描述监督微调（SFT）的数据收集设置（附录C.1），然后介绍训练流程（附录C.2），最后说明评估指标以及用于生成图表的统计工具（附录C.3）。

C.1. 数据

SFT数据收集。如图11至图14所示，GeneralPoints 和 V-IRL 环境天然符合“提示-响应”对话结构。我们通过将每个系统提示与对应专家响应配对，来构建训练样本。主实验中的所有SFT实验均使用最优的单轮“提示-响应”配对数据，不包含任何验证或修订步骤。

使用次优轨迹进行SFT。为了研究更丰富的SFT数据如何影响SFT的分布外性能，我们在GP-L任务上开展了一项消融实验，使用次优轨迹作为训练数据。与专家的“提示-响应”配对不同，这些次优轨迹在其提示中包含了错误和验证信息。这种格式与允许多次验证迭代的评估场景一致，也类似于下游RL训练所使用的数据格式。在图15中，我们观察到，即使使用此类数据，SFT仍然只是记忆训练数据，其分布外性能依然下降。这一证据表明，记忆化现象源于SFT训练方法本身的根本特性，而非SFT数据的形式所致。

C.2 训练流程

如第5节所示，我们采用 RL4VLM（Zhai 等，2024a）的训练流程：首先使用监督微调（SFT）对模型进行初始化，然后从该初始化模型出发，分别扩展 SFT 和 RL 的计算量（Schulman 等，2017）。在主实验的所有 SFT 和 RL 实验中，我们使用每个实验统一的共享学习率来调优所有组件。所有训练实验均在 8 台 H800 机器（每台 80GB 显存）上进行。

C.3 评估指标

逐步准确率（Per-step accuracy）。我们在图5和图6中报告 V-IRL-VL 任务的逐步准确率。当模型在某一位置选择的动作与专家轨迹中的动作一致时，该步骤被视为正确。注意，此处中间的验证步骤也被计为独立的样本。

成功率（Success rate）。我们在图5和图6中报告 GP-L、GP-VL、V-IRL-L 和 V-IRL-VL 的成功率（%）。在 GeneralPoints 任务中，只要模型在推理时的验证过程中至少成功一次，即视为成功。在 V-IRL 任务中，当模型在路径上的每个可移动点都采取了正确动作时，该样本被记录为成功。

计算量估算（Computation estimation）。我们参考 Snell 等（2024）和 Hoffmann 等（2023）的方法估算训练任务 X 的浮点运算量（FLOPs），其中：

D. 额外的实验结果

在本节中，我们提供了正文中未涵盖的额外实验结果。

D.1. GP-VL的消融研究

如第6节所述，我们观察到SFT在与RL的分布内性能上未能达到可比的水平（见图5的子图第1行第3列）。为了进一步探索这一点，我们对不同的超参数选择进行了消融研究。

D.2 V-IRL-VL 的更多结果

与图5中的逐步准确率结果一致，我们在图18中报告了V-IRL-VL的整体成功率。由于任务复杂性，两种训练方法的整体成功率均未超过1%。对于V-IRL任务而言，整体成功率是一个要求更高的指标，因为它会累积每一步的错误。例如，一个在每步准确率为10%的随机策略，在平均长度为10步的足够多路径上，其整体成功率仅约为10⁻⁸%。