Mistral重磅推出Magistral:纯RL训练推理模型的突破与多模态能力新发现

Mistral重磅推出Magistral:纯RL训练推理模型的突破与多模态能力新发现

在大语言模型推理能力研究火热的当下,Mistral发布首篇推理模型论文《Magistral》。其基于纯强化学习(RL)训练框架,不依赖现有推理模型蒸馏,在数学推理、代码生成等任务上实现显著提升,还意外发现RL能增强多模态理解能力,一起来深入探究这一突破性成果。

论文标题
Magistral

来源
https://mistral.ai/static/research/magistral.pdf

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)推理能力的提升已成为当前AI研究的核心方向。推理模型如o1通过更长的思维链(CoT)显著改善复杂任务表现,而DeepSeek-AI提出的RLVR(可验证奖励强化学习)框架则为规模化训练推理模型提供了关键思路。在此背景下,Mistral首次推出基于纯RL训练的推理模型Magistral,其摒弃传统依赖预存推理轨迹或蒸馏的方法,通过自主构建的RL流水线探索LLM纯RL训练的极限,同时关注多语言推理一致性与多模态能力保留等前沿问题。

研究问题

  1. 纯RL训练可行性:现有推理模型多依赖SFT蒸馏数据,纯RL能否直接优化LLM推理能力?

  2. 多语言推理一致性:RL训练中如何确保模型在推理过程中保持用户语言一致性,避免代码切换?

  3. 多模态能力保留:基于文本数据的RL训练是否会导致多模态模型的视觉理解等能力退化?

主要贡献

  1. 纯RL训练框架突破:首次实现不依赖预存推理轨迹的纯RL训练,Magistral Medium在AIME-24准确率较初始模型提升近50%(73.6% vs 26.8%),证明RL可独立驱动LLM推理能力增长。

  2. 多语言推理策略:通过语言一致性奖励和系统提示设计,使模型推理链和回答均保持用户语言,在法语、中文等多语言AIME测试中仅比英文低4.3%-9.9%。

  3. 多模态能力意外增强:基于文本RL训练的Magistral模型在MathVista、MMMU等多模态基准上性能不降反升,MMMU-Pro视觉任务提升12%,揭示RL对跨模态推理的潜在促进作用。

  4. 开源与数据创新:开源Magistral Small(24B,Apache 2.0),并引入冷启动数据混合策略,验证小模型RL训练效果可超越传统蒸馏基线。

方法论精要

强化学习算法优化:GRPO框架的定制改造

采用Group Relative Policy Optimization(GRPO)算法作为核心RL框架,针对推理任务特性进行五项关键改进:

  • 移除KL散度惩罚:避免参考策略计算开销,允许策略自由探索推理路径;
  • 动态剪裁阈值调整:将 ε h i g h ε_{high} εhigh设为0.26-0.28,通过Clip-Higher策略放宽低概率token生成限制,增强推理多样性;
  • 损失与优势双重归一化:按生成序列总长度归一化损失以消除长度偏差,通过批次内优势标准化 A ^ i , t n o r m \hat{A}_{i,t}^{norm} A^i,tnorm稳定训练信号;
  • 过滤零优势分组:剔除全对/全错的无效训练组,降低梯度噪声。

多维度奖励函数设计

通过四轴评估体系引导模型输出:

  • 格式约束:数学答案需包含\boxed{}标记,代码需用三重反引号包裹,不满足则奖励置0;
  • 正确性验证:数学答案通过SymPy解析归一化对比,代码执行20组随机测试,正确时追加0.9奖励;
  • 长度软惩罚:当生成长度超过 l m a x − l c a c h e l_{max}-l_{cache} lmaxlcache时,按 R l e n g t h ( y ) R_{length}(y) Rlength(y)线性衰减奖励;
  • 语言一致性:通过fastText分类器检查问题-思维-答案的语言一致性,一致时奖励+0.1。

分布式训练基础设施

构建异步RL系统协调三类节点:

  • 训练器(Trainers):维护模型权重并执行梯度更新,通过NCCL实现GPU间权重广播(<5秒);
  • 生成器(Generators):持续生成推理序列,允许权重更新时使用旧KV缓存,保证吞吐量最大化;
  • 验证器(Verifiers):按奖励函数评估生成结果,动态过滤无效分组。

这真是全异步了…

数据筛选与增强策略

  • 数学数据:经格式过滤(700k→501k)和难度分层(501k→38k),通过RL预训练模型二次筛选矛盾答案问题;
  • 代码数据:筛选含测试用例的竞赛问题,按通过率校准测试集,生成Python/C++双版本问题,最终保留35k样本;
  • 多语言扩展:将10%英文问题翻译为法/西/德等语言,强制模型使用用户语言推理。

实验洞察

推理性能的突破性提升

  • 数学推理:Magistral Medium在AIME-24上pass@1达73.6%,较初始Mistral Medium 3提升175%,多数投票策略(maj@64)准确率更达90%,超越DeepSeek-R1的71.0%。AIME-25、MATH-500等基准上也实现64.9%-94.3%的准确率,验证纯RL对复杂数学问题的优化效果。
  • 代码生成:LiveCodeBench v5准确率59.4%(初始29.1%),虽低于DeepSeek-R1(65.9%),但在Aider Polyglot等任务中提升超60%,且纯RL训练避免了代码风格固化问题。
  • 多语言泛化:中文/俄语等AIME-24版本准确率较英文低4.3%-9.9%(如中文63.7%),但模型能完全用用户语言生成推理链,打破“推理必用英文”的传统局限。

小模型RL训练的反常识发现

  • Magistral Small(24B) 通过“SFT+RL”组合,AIME-24 pass@1达70.7%,超越纯SFT(65.4%)和纯RL(65.8%)。在MATH-500等任务中,纯RL甚至比SFT基线高2.2%,**反驳了“小模型需依赖大模型蒸馏”**的既有认知。
  • 跨域迁移能力:仅用数学数据RL训练的模型,LiveCodeBench v5得分提升15.6%;仅用代码数据训练时,AIME-24提升17.5%,证明推理能力可跨领域泛化。

多模态能力的意外增强

  • 视觉推理保留与提升:基于文本RL训练的Magistral Medium在MMMU-Pro视觉任务中提升12%(52.1%),MathVista等基准无性能衰减。PCA分析显示,RL训练未破坏模型视觉编码权重,反而通过推理链优化间接增强跨模态关联。
  • 工具调用与指令遵循:函数调用基准Internal bench得分87.4%(初始87.2%),IFEval指令遵循测试提升0.6%,证明RL未损害模型基础能力。

训练效率与稳定性验证

  • 异步训练系统:通过动态调整批量大小(如8k→2k)和KV缓存优化,在40k长序列生成时仍保持训练稳定性,权重更新延迟<5秒,吞吐量较同步框架提升3倍。
  • 消融实验结论:
    • 优势归一化:批次归一化(Minibatch)较组归一化(Group)更稳定,且不影响AIME-24等任务表现;
    • 代码奖励策略:二进制奖励(pass/fail)比按测试通过率的比例奖励更优,LiveCodeBench得分高2%,生成长度增长更快;
    • 熵控制:通过调整ε_high(0.26-0.28)比添加熵奖励项更稳定,避免了代码任务中熵值爆炸问题。

开源数据与混合训练验证

  • 冷启动数据价值:Magistral Small通过融合Magistral Medium生成的推理轨迹(含长CoT),在AIME-24上比纯随机初始化RL提升5.3%,证明高质量冷启动数据可加速小模型收敛。
  • 开源轨迹+RL组合:基于OpenThoughts等开源数据SFT后再RL,Magistral Medium在AIME-25上提升12%,性能逼近DeepSeek-R1,验证“开源数据+定制RL”的可行性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值