摘要
带可验证奖励的强化学习(RLVR)最近在提升大语言模型(LLMs)的推理性能方面取得了显著成功,尤其是在数学和编程任务中。人们普遍认为,与传统强化学习帮助智能体探索和学习新策略类似,RLVR使LLMs能够持续自我改进,从而获得超越相应基础模型能力的新型推理能力。在本研究中,我们通过使用大k值的pass@k作为评估指标,系统地探究了RLVR训练的LLMs在各种模型家族、RL算法以及数学/编码/视觉推理基准上的推理能力边界,对当前RLVR的现状进行了批判性审视。尽管RLVR提高了正确路径的采样效率,但我们惊讶地发现,当前的训练并没有引出根本上新的推理模式。我们观察到,虽然RLVR训练的模型在较小的k值(例如,k=1)时表现优于其基础模型,但当k较大时,基础模型的pass@k分数更高。此外,我们还观察到,随着RLVR训练的进行,LLMs的推理能力边界往往会缩小。进一步的覆盖范围和困惑度分析表明,RLVR模型生成的推理路径已经包含在基础模型的采样分布中,这表明它们的推理能力源于基础模型并受其限制。从这个角度来看,将基础模型视为上限,我们的定量分析表明,六种流行的RLVR算法表现相似,且在充分利用基础模型的潜力方面远未达到最佳状态。相比之下,我们发现蒸馏可以从教师模型引入新的推理模式,并