摘要
数学推理已成为大型语言模型(LLM)发展的标志性领域,新模型在MATH和AIME等基准测试中迅速超越人类水平表现。但随着数学排行榜每周更新优化,我们有必要思考:这些进步反映的是更广泛的问题解决能力,还是仅仅局限于过拟合?为回答这一问题,我们对20多个经过推理调优的开源模型进行了多任务评估,涵盖数学、科学问答、智能体规划、编程以及标准指令遵循等领域。令人惊讶的是,我们发现大多数在数学任务中表现优异的模型,无法将其能力迁移到其他领域。为严格研究这一现象,我们以Qwen3-14B模型为对象,仅使用数学数据但采用不同调优方法开展对照实验。结果表明,通过强化学习(RL)调优的模型在跨领域泛化能力上表现出色,而监督微调(SFT)调优的模型往往会遗忘通用能力。潜在空间表征和token空间分布迁移分析显示,SFT会导致显著的表征和输出偏移,而RL则能保留通用领域结构。我们的研究结果表明,需要重新思考标准的训练后优化策略,尤其是在推进推理模型时对SFT蒸馏数据的过度依赖问题。
1. intro
如今,源源不断的推理调优模型(Guha 等人,2025;Muennighoff 等人,2025)几乎每周都在推动数学基准测试的最新进展,部分模型甚至超越了人类专家的平均表现(OpenAI,2024;Team,2025a)。
数学推理任务上的出色表现是可以理解的:问题表述明确,解决方案无歧义,评估也易于验证 —— 通常只需一个数字或表达式(Luo 等人,2025)。这种清晰性使数学成为 LLM 推理能力的热门代理任务,研究人员也开发出越来越复杂的训练方案,以最大化模型在数学推理任务上的表现(Luo 等人,2023;Shao 等人,2024;Wang 等人,2024a;Wei 等人,2023;Yue 等人,2024a)。
这一趋势一方面值得鼓励。数学常被视为科学的基础语言,而让机器能够精确地进行数学推理,是实现自动化科学发现长远愿景的核心(Mishra 等人,2022)。另一方面,现实世界的任务远不止数学。大多数面向用户的应用,如问答、对话、指令遵循等,都需要更广泛的语言能力和常识能力,而这些单靠数学任务无法检验(Ma 等人,2025)。
这就引出了一个自然的问题:数学推理能力的提升是否能迁移到大型语言模型(LLM)的通用能力上?具体而言,解决数学问题能力的提升能否迁移到其他推理领域(例如,科学问答(Welbl 等人,2017)、编程(Jain 等人,2025)、智能体规划(Xie 等人,2024)、逻辑演绎(Dziri 等人,2024)),以及那些不需要深度推理的任务(例如,对话式问答(Reddy 等人,2019)、指令遵循(Zhou 等人,2023))上?
为了进行研究,我们评估了20多个具有代表性的开源权重推理模型。这些模型在近期的数学基准测试中均表现出色,我们还对它们在一系列其他推理任务以及非推理任务上进行评估。为定量分析这一问题,我们提出了迁移性指数(Transferability Index),这是一种衡量推理模型将其能力从一个领域迁移到另一个领域的指标。令人惊讶的是,如图 2 所示,我们发现部分模型无法将提升的数学推理能力迁移到其他领域,而另一些模型则成功实现了迁移。
是什么导致了这种差异?模型的训练方案在规模、数据分布和架构上存在很大差异。然而,在各种因素中,我们发现了一个始终能预测迁移能力的因素:微调范式。在不同模型系列和规模中,使用强化学习(RL)进行微调的模型(Su 等人,2025;Yeo 等人,2025)对非数学任务的泛化能力明显强于使用监督微调(SFT)训练的模型(Yue 等人,2024a,b)—— 后者在广泛的非数学任务上常常表现出灾难性遗忘的迹象。
为验证这一观察,我们进行了对照研究。我们使用从 MATH 和 DeepScaler(Luo 等人,2025)中提取的高质量数学数据集对 Qwen3-14B(Team,2025b)进行微调。对于监督微调(SFT),我们通过 Qwen3-32B 的拒绝采样构建目标,仅保留能生成正确最终答案的教师响应;对于强化学习(RL),我们采用标准 GRPO(Shao 等人,2024)框架,将答案正确性作为奖励。如图 1 所示,结果与大规模评估一致:尽管仅在数学查询上训练,RL 微调的模型能很好地泛化到非数学领域,而 SFT 微调的模型则不能。
为深入理解这一现象,我们使用两种诊断工具:(1)对各层隐藏状态进行潜在空间主成分分析(PCA);(2)计算微调前后token分布的 KL 散度。这些方法使我们能够量化模型在训练过程中内部表征和输出空间的变化程度。我们发现,SFT 会导致潜在空间和输出空间的显著偏移,尤其是对非推理输入;而 RL 则更好地保留了内部特征的几何结构和token分布的稳定性。
2. Phenomena: Performance Discrepancies of Reasoning Models
2.1 Observed Performance Discrepancies Between RL and SFT
setup 我们在不同基准测试上评估了 20 多个现成的推理模型。具体而言,我们从以下三个类别中选择基准测试:(1)数学推理任务:MATH500(Hendrycks 等人,2021b)、AIME24、AIME25、奥林匹克基准(He 等人,2024),这些任务仅包含数学问题;(2)其他推理任务:LiveCodeBench(Jain 等人,2025)、GPQA-Diamond(Rein 等人,2024)、ACPBench(Kokel 等人,2025)、HeadQA(Vilares 和 Gómez-Rodríguez,2019),这些任务包含更通用的推理问题,如医疗推理、代码生成和基于语言的智能体规划任务;(3)非推理任务:CoQA(Reddy 等人,2019)、IFEval(Zhou 等人,2023)、HaluEval(Li 等人,2023)、MC-TACO(Zhou 等人,2019),这些任务包含事实性、对齐或对话性问题,如常识问答和指令遵循。我们使用准确率来评估模型的性能。有关实验设置、基准测试和评估指标的详细说明可在附录 A.2 中找到。
如第 2.2 节所述,我们的基础训练数据集是经过筛选的 4.7 万道高质量数学题。我们通过两种互补来源对样例进行分层:从 DeepScaler 数据集(Luo 等人,2025)中提取的低难度问题,以及从 SimpleRL(Zeng 等人,2025)中提取的高难度(3-5 级)问题。为生成思维链(CoT)注释,我们将每个问题输入 Qwen3-32B-Instruct 模型(Team,2025b),并使用拒绝采样方法生成我们的数据集。
为了更好地评估模型在广泛任务组间的迁移能力,我们将 Transferability Index (TI)定义如下:
设BgB_gBg为任务组ggg(g∈{math,other,non}g\in\{math, other, non\}g∈{math,other,non})对应的基准测试集合,分别对应我们的数学推理、其他推理和非推理任务组。∣Bg∣|B_g|∣Bg∣表示其基数。对于每个基准测试b∈Bgb\in B_gb∈Bg,我们有模型得分RmodelbR_{\text{model}}^bRmodelb和基准得分RbasebR_{\text{base}}^bRbaseb。我们将组级相对增益定义为每个基准测试增益的平均值: ΔRg=1∣Bg∣∑b∈BgRmodelb−RbasebRbaseb,g∈{math,other,non} \Delta R_g = \frac{1}{|B_g|} \sum_{b \in B_g} \frac{R_{\text{model}}^b - R_{\text{base}}^b}{R_{\text{base}}^b}, \quad g \in \{math, other, non\} ΔRg=∣Bg∣1b∈Bg∑RbasebRmodelb−Rbaseb,g∈{math,other,non}
接下来,两个迁移性指数定义为:
TIother(%)=ΔRotherΔRmath×100,TInon(%)=ΔRnonΔRmath×100. TI_{other}(\%) = \frac{\Delta R_{other}}{\Delta R_{math}} \times 100, \quad TI_{non}(\%) = \frac{\Delta R_{non}}{\Delta R_{math}} \times 100.TIother(%)=ΔRmathΔRother×100,TInon(%)=ΔRmathΔRnon×100.
将TI值与0进行比较,任何高于0的TI值都表明观察到了正向迁移。
Result 图 2 和表 4 展示了各种模型迁移性指数的对比评估。我们可以得出结论:模型的迁移能力可能与微调方法、模型规模和模型架构有关。尽管微调方法的选择似乎是一个更关键的因素,因为我们观察到,经过强化学习(RL)微调的模型在其他推理任务和非推理任务上始终能获得更高的迁移性指数,而通过监督微调(SFT)训练的模型往往出现负的 TInon。这种一致的模式在其他因素的比较中并未出现,这有力地表明:在线强化学习(RL)更新在增强推理技能的同时,不会严重干扰模型的通用领域表示;而在大规模静态推理数据集上进行的离线监督微调(SFT)可能会使潜在空间过度专业化,甚至引发表示崩溃,导致在非推理领域的性能下降。
2.2 Control Study
受 2.1 节研究发现的启发,我们设计了一项轻量级对照实验,以在相同数据集上直接比较监督微调(SFT)和强化学习(RL)。具体而言,我们从一个小规模高质量数学数据集出发(详细信息见附录 A.2.2),然后向强教师模型(Qwen3-32B-Instruct)发起查询,通过拒绝采样提取完整的思维链(CoT)推理轨迹。这些 CoT 轨迹将作为 SFT 的训练目标,而原始答案标签则作为强化学习(RL)的奖励。这种对齐确保两种范式从相同的数据样本中学习。然后,我们采用 Qwen3-14B-Base 模型,并通过两种方式对其进行微调:(i)在教师生成的思维链(CoT)轨迹上进行监督微调(SFT);(ii)仅使用真实标签进行强化学习(RL)。我们将模型命名为 UniReason。我们与 Qwen3-14B-Base 模型进行了比较。评估使用准确率在上述三个基准测试组上进行。有关训练数据集、基线模型和超参数的详细信息也可在附录 A.2 中找到。
我们在三类基准测试上的实验结果(见表 1)揭示了一个一致的规律:
- 在数学推理任务上(见表1),我们的UniReason-Qwen3-14B(RL)模型在AIME24上达到55.7%、MATH500上达到87.8%、奥林匹克基准测试上达到33.8%,优于相应的基于监督微调(SFT)的模型。
- 对于其他推理任务,基于SFT的模型表现参差不齐(例如,UniReason-Qwen3-14B-SFT-think在GPQA上得分为55.9%),而强化学习(RL)微调则带来显著提升:UniReason-Qwen3-14B(RL)在GPQA上比SFT模型高出1.8%,在LiveCodeBench2上高出17.1%。
- 关键的是,在非推理任务评估中,SFT模型表现停滞或下降,而RL模型几乎在所有基准测试中都恢复并超过了基础模型的表现。
- 从表1可以看出,我们的RL微调模型实现了正向的TIother和TInon,这意味着其数学推理能力的提升也迁移到了其他推理任务,甚至促进了非推理任务的表现。相比之下,基于SFT的模型通常具有负的TInon(非推理任务表现损失),表明其在推理任务之外的迁移能力较差。
这些结果表明,在严格控制其他因素的情况下,RL微调的推理模型在推理和非推理任务上的表现普遍优于基于SFT的模型。特别是,我们的UniReason模型仅在单一蒸馏数学数据集上训练,但在展现出强大推理能力提升的同时,仍保留甚至提高了通用领域的性能。
3. Latent Representation Shifts: Insights from PCA Analysis
如第2.1节所述,对Qwen模型应用监督微调(SFT)虽能提升数学解题、代码生成等推理能力,但会显著损害其通用领域性能。我们观察到,大多数经过SFT的模型无法将提升的数学推理能力迁移至其他领域。相比之下,对照研究表明:尽管仅在数学查询上训练,强化学习(RL)微调的模型仍能很好地泛化到非数学领域,而SFT微调的模型则不具备这一能力。
为了理解这种迁移能力差异的根本原因,我们采用主成分分析(PCA)偏移分析来考察:在不同训练范式、模型规模和模型系列下,模型的内部特征几何结构如何随多样化的查询分布而演变。近期研究(Xu等人,2025a;Zheng等人,2025)表明,PCA偏移分析能为与任务性能相关的表征变化提供敏感且可解释的度量。重要的是,模型参数的变化并不总与功能差异对应:大规模的权重更新可能不改变输出,而细微的参数修改却可能导致激活分布的显著偏移。 通过聚焦隐藏表征,PCA偏移直接捕捉模型编码和处理信息的方式,相比基于参数的指标,能更真实地反映其内部知识状态。这一视角使我们能够区分真正的知识擦除,与保持底层特征空间完整的参数化变化。此外,由于迁移能力从根本上依赖于跨任务或领域的学习表征的对齐性和稳定性,PCA偏移特别适合诊断可能影响跨域泛化的变化。主成分的偏移揭示了模型的内部特征空间是否仍适合知识迁移,或是否已被训练或遗忘干预所破坏。
3.1 Experimental Setup
模型与任务。 在2.1节中,我们观察到在数学数据集上训练的模型在其他推理任务上表现出中等迁移能力。我们对相应的模型和任务进行了主成分分析(PCA)偏移分析,旨在从特征空间的角度批判性评估这些现象的鲁棒性。
评估方法。给定输入查询X,我们为每个模型状态(∗)∈{原始, 更新}提取各层i的隐藏状态H(∗)𝑖。对H(∗)𝑖应用主成分分析(n=2),计算第一主成分方向(PC1)的平均投影mi,1(∗)m_{i, 1}^{(*)}mi,1(∗)和第二主成分方向(PC2)的平均投影mi,2(∗)m_{i, 2}^{(*)}mi,2(∗)。PCA偏移对PC1定义为Δmi,1(∗)=mi,1(∗)−mi,1orig\Delta m_{i, 1}^{(*)} = m_{i, 1}^{(*)} - m_{i, 1}^{\text{orig}}Δmi,1(∗)=mi,1(∗)−mi,1orig,而对PC2则直接报告𝑚(∗)𝑖,2作为分布变化的辅助指标。小偏移量表示特征稳定。
3.2 Investigating Latent Space Shift
为了量化整体潜在空间的偏移,我们为每个模型状态(∗)定义一个表征中心,即所有层的PCA投影坐标的平均值: z(∗)=1L∑i=1Lzi(∗)z^{(*)} = \frac{1}{L} \sum_{i=1}^{L} z_i^{(*)}z(∗)=L1∑i=1Lzi(∗) 其中 LLL 表示总层数,且 zi(∗)=(Δmi,1(∗),mi,2(∗))z_i^{(*)} = (\Delta m_{i,1}^{(*)}, m_{i,2}^{(*)})zi(∗)=(Δmi,1(∗),mi,2(∗)) 是状态(∗)下第 iii 层的PCA坐标向量。两个模型状态(如原始模型与更新后模型)之间的潜在偏移通过欧氏距离衡量: d(∗)=∥z(∗)−zorig∥2d^{(*)} = \| z^{(*)} - z^{\text{orig}} \|_2d(∗)=∥z(∗)−zorig∥2 .
基于附录A.3的分析,基于强化学习(RL)的训练被证明对开发稳健且可泛化的语言模型至关重要,这类模型能在通用领域与推理能力之间保持强平衡。受此启发,我们进一步分析对照实验中提出的微调模型。如表2所示,基于RL的模型(红色高亮)在数学、其他推理和非推理任务中均实现了最小的PCA偏移幅度。
图3进一步支持了这些发现,表明基于RL的模型在各种基准测试中始终产生最小且紧密聚集的潜在偏移。相比之下,基于SFT的模型,尤其是那些没有显式推理信号的模型,表现出更分散和明显的偏移。
这些结果与2.1节的评估一起,凸显了RL相较于SFT的明显优势。这证实了需要一个整体且平衡的优化目标,而非孤立的干预措施,以最大限度地减少灾难性遗忘并在大规模语言模型中保持性能。
4. Token Distribution Shifts: Insights from KL Divergence and Rank Analyses
4.1 Setup
在本节中,我们进行token级分析,以进一步考察基于数学推理数据训练的RL模型(逻辑结构与内容词)和SFT模型的分布偏移。
KL散度是衡量概率分布之间差异的标准指标。对于 token 排名偏移分析,我们首先使用微调模型生成token,然后使用骨干模型解码这些相同的token以确定其原始排名位置。排名偏移计算为每个token在微调模型和 backbone 模型之间的token排名差异(Li等人,2025c;Lin等人,2023)。根据第2.1节的观察,我们对相应的模型和任务进行了额外的token分布分析,以从token空间的角度评估模型的分布偏移。具体来说,我们采用KL散度和token排名偏移指标来分析模型之间的分布偏移。
4.2 Experiment Result
RL模型与骨干模型的KL散度更低。在图5中我们观察到,SFT模型在推理和非推理任务上的KL散度均显著高于RL模型。这表明,与SFT模型相比,RL模型在token分布层面的分布偏移要小得多。例如,UniReason-Qwen3-14B-SFT-no-think在MATH-500和IFEval任务上与骨干模型的KL散度分别为0.372和0.283,而UniReason-Qwen3-14B(RL)在相应任务上的KL散度则低得多,仅为0.084和0.019。
RL模型的token排名偏移更小。在图15中,我们进一步分析了SFT和RL模型的token排名偏移。结果显示,与骨干模型相比,RL模型的平均token排名偏移显著低于SFT模型。具体而言,UniReason-Qwen3-14B(RL)的平均token排名偏移仅为0.98,而UniReason-Qwen3-14B-SFT-no-think的平均token排名偏移则显著更高,达到10.6。
这表明,在推理和非推理任务中,SFT模型比RL模型经历了更大的token分布偏移。 图6详细可视化了推理和非推理任务中不同位置索引的token排名偏移。我们观察到,RL模型仅在少数位置出现较小的token排名偏移(小于10)。相比之下,SFT模型在整个序列的多个位置上表现出显著的排名偏移。
RL模型选择性地偏移任务相关token,而SFT模型则偏移大量不相关token。 表3展示了一项全面的案例研究,考察了RL和SFT模型在推理和非推理查询中偏移的token。对于RL模型,我们观察到其token偏移具有高度选择性,仅有少量与查询相关的token发生偏移。在推理查询中,偏移仅限于“define”“add”“second”“number”等关键逻辑token;而在非推理查询中,仅有“«”“»”“write”“formally”等任务特定关键词出现排名变化。相比之下,SFT模型表现出广泛的token偏移,在推理和非推理查询中分别有390和158个token发生偏移,其中包括大量与查询无关的token。例如,非推理查询中不恰当地引入了推理token,导致不必要的过度思考,从而影响性能。完整的模型响应请参见附录A.4。此外,我们计算了RL微调与SFT微调模型在数学推理任务下偏移token的词频,将其合并为一个词池并选取前250个高频token,然后绘制了所选token的词云,如图4所示。该图证实了我们的观察:RL选择性地偏移任务相关token,而SFT则同时偏移相关和不相关token。
6. Conclusion
在这项工作中,我们研究了影响推理模型在推理和非推理基准测试中迁移能力的因素。我们的主要发现如下:首先,除了模型规模和架构外,微调范式的选择对迁移能力有显著影响:强化学习(RL)微调的模型在数学推理任务上取得显著提升,同时保持对其他推理任务和非推理任务的正向迁移,而监督微调(SFT)往往在非推理基准测试中导致负向迁移。其次,潜在空间的主成分分析(PCA)证实,RL引起的与骨干模型表征的偏差最小,从而保持了特征稳定性,而SFT产生了更大的潜在偏移,尤其是在非推理领域。第三,token分布分析表明,RL仅选择性地调整少数与任务相关的token,而SFT会扰动许多不相关token,这表明RL的优化更具针对性。值得注意的是,我们在4.7万个数学示例上微调的UniReason-Qwen3-14B(RL)模型在推理能力提升和通用领域性能保留之间取得了最佳平衡,有力验证了我们的假设和分析。