Mistral重磅推出Magistral:纯RL训练推理模型的突破与多模态能力新发现
在大语言模型推理能力研究火热的当下,Mistral发布首篇推理模型论文《Magistral》。其基于纯强化学习(RL)训练框架,不依赖现有推理模型蒸馏,在数学推理、代码生成等任务上实现显著提升,还意外发现RL能增强多模态理解能力,一起来深入探究这一突破性成果。
论文标题
Magistral
来源
https://mistral.ai/static/research/magistral.pdf
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁
文章核心
研究背景
大语言模型(LLM)推理能力的提升已成为当前AI研究的核心方向。推理模型如o1通过更长的思维链(CoT)显著改善复杂任务表现,而DeepSeek-AI提出的RLVR(可验证奖励强化学习)框架则为规模化训练推理模型提供了关键思路。在此背景下,Mistral首次推出基于纯RL训练的推理模型Magistral,其摒弃传统依赖预存推理轨迹或蒸馏的方法,通过自主构建的RL流水线探索LLM纯RL训练的极限,同时关注多语言推理一致性与多模态能力保留等前沿问题。
研究问题
-
纯RL训练可行性:现有推理模型多依赖SFT蒸馏数据,纯RL能否直接优化LLM推理能力?
-
多语言推理一致性:RL训练中如何确保模型在推理过程中保持用户语言一致性,避免代码切换?
-
多模态能力保留:基于文本数据的RL训练是否会导致多模态模型的视觉理解等能力退化?
主要贡献
-
纯RL训练框架突破:首次实现不依赖预存推理轨迹的纯RL训练,Magistral Medium在AIME-24准确率较初始模型提升近50%(73.6% vs 26.8%),证明RL可独立驱动LLM推理能力增长。
-
多语言推理策略:通过语言一致性奖励和系统提示设计,使模型推理链和回答均保持用户语言,在法语、中文等多语言AIME测试中仅比英文低4.3%-9.9%。
-
多模态能力意外增强:基于文本RL训练的Magistral模型在MathVista、MMMU等多模态基准上性能不降反升,MMMU-Pro视觉任务提升12%,揭示RL对跨模态推理的潜在促进作用。
-
开源与数据创新:开源Magistral Small(24B,Apache 2.0),并引入冷启动数据混合策略,验证小模型RL训练效果可超越传统蒸馏基线。
方法论精要
强化学习算法优化:GRPO框架的定制改造
采用Group Relative Policy Optimization(GRPO)算法作为核心RL框架,针对推理任务特性进行五项关键改进:
- 移除KL散度惩罚:避免参考策略计算开销,允许策略自由探索推理路径;
- 动态剪裁阈值调整:将 ε h i g h ε_{high} εhigh设为0.26-0.28,通过Clip-Higher策略放宽低概率token生成限制,增强推理多样性;
- 损失与优势双重归一化:按生成序列总长度归一化损失以消除长度偏差,通过批次内优势标准化 A ^ i , t n o r m \hat{A}_{i,t}^{norm} A^i,tnorm稳定训练信号;
- 过滤零优势分组:剔除全对/全错的无效训练组,降低梯度噪声。
多维度奖励函数设计
通过四轴评估体系引导模型输出:
- 格式约束:数学答案需包含\boxed{}标记,代码需用三重反引号包裹,不满足则奖励置0;
- 正确性验证:数学答案通过SymPy解析归一化对比,代码执行20组随机测试,正确时追加0.9奖励;
- 长度软惩罚:当生成长度超过 l m a x − l c a c h e l_{max}-l_{cache} lmax−lcache时,按 R l e n g t h ( y ) R_{length}(y) Rlength(y)线性衰减奖励;
- 语言一致性:通过fastText分类器检查问题-思维-答案的语言一致性,一致时奖励+0.1。
分布式训练基础设施
构建异步RL系统协调三类节点:
- 训练器(Trainers):维护模型权重并执行梯度更新,通过NCCL实现GPU间权重广播(<5秒);
- 生成器(Generators):持续生成推理序列,允许权重更新时使用旧KV缓存,保证吞吐量最大化;
- 验证器(Verifiers):按奖励函数评估生成结果,动态过滤无效分组。
这真是全异步了…
数据筛选与增强策略
- 数学数据:经格式过滤(700k→501k)和难度分层(501k→38k),通过RL预训练模型二次筛选矛盾答案问题;
- 代码数据:筛选含测试用例的竞赛问题,按通过率校准测试集,生成Python/C++双版本问题,最终保留35k样本;
- 多语言扩展:将10%英文问题翻译为法/西/德等语言,强制模型使用用户语言推理。
实验洞察
推理性能的突破性提升
- 数学推理:Magistral Medium在AIME-24上pass@1达73.6%,较初始Mistral Medium 3提升175%,多数投票策略(maj@64)准确率更达90%,超越DeepSeek-R1的71.0%。AIME-25、MATH-500等基准上也实现64.9%-94.3%的准确率,验证纯RL对复杂数学问题的优化效果。
- 代码生成:LiveCodeBench v5准确率59.4%(初始29.1%),虽低于DeepSeek-R1(65.9%),但在Aider Polyglot等任务中提升超60%,且纯RL训练避免了代码风格固化问题。
- 多语言泛化:中文/俄语等AIME-24版本准确率较英文低4.3%-9.9%(如中文63.7%),但模型能完全用用户语言生成推理链,打破“推理必用英文”的传统局限。
小模型RL训练的反常识发现
- Magistral Small(24B) 通过“SFT+RL”组合,AIME-24 pass@1达70.7%,超越纯SFT(65.4%)和纯RL(65.8%)。在MATH-500等任务中,纯RL甚至比SFT基线高2.2%,**反驳了“小模型需依赖大模型蒸馏”**的既有认知。
- 跨域迁移能力:仅用数学数据RL训练的模型,LiveCodeBench v5得分提升15.6%;仅用代码数据训练时,AIME-24提升17.5%,证明推理能力可跨领域泛化。
多模态能力的意外增强
- 视觉推理保留与提升:基于文本RL训练的Magistral Medium在MMMU-Pro视觉任务中提升12%(52.1%),MathVista等基准无性能衰减。PCA分析显示,RL训练未破坏模型视觉编码权重,反而通过推理链优化间接增强跨模态关联。
- 工具调用与指令遵循:函数调用基准Internal bench得分87.4%(初始87.2%),IFEval指令遵循测试提升0.6%,证明RL未损害模型基础能力。
训练效率与稳定性验证
- 异步训练系统:通过动态调整批量大小(如8k→2k)和KV缓存优化,在40k长序列生成时仍保持训练稳定性,权重更新延迟<5秒,吞吐量较同步框架提升3倍。
- 消融实验结论:
- 优势归一化:批次归一化(Minibatch)较组归一化(Group)更稳定,且不影响AIME-24等任务表现;
- 代码奖励策略:二进制奖励(pass/fail)比按测试通过率的比例奖励更优,LiveCodeBench得分高2%,生成长度增长更快;
- 熵控制:通过调整ε_high(0.26-0.28)比添加熵奖励项更稳定,避免了代码任务中熵值爆炸问题。
开源数据与混合训练验证
- 冷启动数据价值:Magistral Small通过融合Magistral Medium生成的推理轨迹(含长CoT),在AIME-24上比纯随机初始化RL提升5.3%,证明高质量冷启动数据可加速小模型收敛。
- 开源轨迹+RL组合:基于OpenThoughts等开源数据SFT后再RL,Magistral Medium在AIME-25上提升12%,性能逼近DeepSeek-R1,验证“开源数据+定制RL”的可行性。