本文约3000字,建议阅读5分钟
本文介绍了由 MiroMind 面向数学推理场景,完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。
本文约3000字,建议阅读5分钟
本文介绍了由 MiroMind 面向数学推理场景,完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。
近日,MiroMind(集智进化) 推出 MiroMind‑M1 系列数学推理语言模型(RLMs),训练数据、代码、模型配方、测试等全流程全部开源,覆盖监督微调(SFT)和强化学习(RL)两大部分。
MiroMind-M1 在数学基准 AIME24、AIME25、MATH500 上,性能持平、甚至超越同基模、同尺寸开源 RLMs,并在保持准确度的同时显著缩短了答案长度、提高了推理效率。
论文链接:
https://arxiv.org/abs/2507.14683
代码链接:
https://github.com/MiroMindAsia/MiroMind-M1
模型链接:
https://huggingface.co/miromind-ai/MiroMind-M1-SFT-7B
https://huggingface.co/miromind-ai/MiroMind-M1-RL-7B
https://huggingface.co/miromind-ai/MiroMind-M1-RL-32B
数据链接:
https://huggingface.co/datasets/miromind-ai/MiroMind-M1-SFT-719K
https://huggingface.co/datasets/miromind-ai/MiroMind-M1-RL-62K
一、背景:数学为何成为突破口
大语言模型(LLMs)已从文本生成发展到跨领域的高级推理能力,催生了推理语言模型(RLMs)的兴起。在众多应用领域中,数学推理因其对多步逻辑和抽象推理的要求,成为衡量 RLM 能力的关键基准。
虽然 GPT‑o3、Claude Sonnet 4 等闭源模型在该类任务上表现亮眼,但缺失公开数据、配置与训练细节,使得研究者难以复现并进一步改进。现有开源项目虽然数量众多,却仍然存在数据不全、脚本缺失或流程不完整的问题,社区难以在其之上快速迭代。
MiroMind 的理念是让研究“可验证、可复现、可延伸”,因此发布了完整的技术栈:模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B),数据(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)以及所有训练和评估代码。
二、MiroMind-M1
具体而言,MiroMind-M1 分两个阶段进行训练:首先,在包含 719K 数学推理问题(附带经过验证的思维链(CoT)轨迹)的数据上进行监督微调(SFT);随后,在 62K 具有挑战性且可验证的问题上进行可验证奖励强化学习(RLVR)。
为了增强 RLVR 过程的鲁棒性和效率,训练过程引入了上下文感知多阶段优化(CAMPO)算法,该算法将长度渐进式训练与自适应冗余惩罚相结合,以鼓励上下文感知的强化学习训练。
MiroMind-M1 在 AIME24、AIME25 和 MATH500 基准测试中,在基于 Qwen-2.5 的完全开源 7B 模型中取得了SOTA 的性能,32B 模型与开源最强持平。同时,得益于 CAMPO 算法,MiroMind-M1-RL 在保持准确率的前提下,节省了近 20% token 数。
三、MiroMind-M1-SFT:719K 高质样本超越 DeepSeek 蒸馏 7B 模型
本章节详细介绍了如何构建高质量的监督微调(SFT)数据集,以复现甚至超越 DeepSeek-R1 蒸馏模型(7B)在数学推理方面的性能。主要内容包括数据来源、数据处理方法以及 SFT 训练。
3.1 数据整理
为显著提升 LLM 在数学推理场景中的表现,团队首先从 R1 蒸馏数据切入,展开大规模收集与精细过滤。
原始素材来自 OpenR1、OpenThoughts、Light‑R1 以及 Synthetic‑1 四个公开渠道;在全面去重与去污染后,最终沉淀出 719K 高质量样本,为监督微调阶段奠定了坚实的数据基础。
3.2 实验结果
表 2 的对比结果显示,MiroMind‑M1‑SFT‑7B 在 AIME24、AIME25 与 MATH‑500 上分别取得 60.5、45.0 和 94.6 的得分,三项指标均领先同基模、同尺寸的其他开源 SFT 模型,充分佐证了数据与训练策略的有效性;同时,其表现亦超越了最新发布的 MiMo‑7B‑SFT。
3.3 模型训练分享
本文发现,在数量相同的情况下,更长的思考路径可以带来更好的蒸馏效果。如表 4,在 SFT 训练数据维 30k 与 50k 的情况下,更长的路径均能取得更好的效果。
四、MiroMind-M1-RL:CAMPO 让 RL 又强又省
最近的研究表明,强化学习(RL)可以提高基模型和R1蒸馏模型的推理性能。一个关键点是,性能的提升通常伴随着响应长度的增加。然而,更长的输出会引入冗余和不必要的重复,这表明效率是一个同样重要但尚未充分探索的方面。
本章节介绍了 MiroMind-M1-RL 模型系列,包括 MiroMind-M1-RL-32B 和 MiroMind-M1-RL-7B。MiroMind-M1-RL 不仅提高了性能,还增强了数学推理的 token 使用效率。
4.1 数据整理
为拿到一套可有效驱动强化学习的优质数学语料,团队先从多路公开资源汇集海量题目,再通过四道严苛关卡逐一过滤:先剔除无法验证的样本,再去重,随后按难度仅保留中等题,最后移除答案过长或自动校验困难的条目。
经过层层筛选,原始数据被淘汰 94%,只剩下 62K 既可验证又已去污染的精炼题目,并确保与评测基准零重叠,为 RL 训练提供了一块干净而扎实的基石。
4.2 上下文感知的多阶段强化学习
为充分利用强化学习阶段的训练信号,研究团队提出了上下文感知多阶段策略优化(CAMPO)算法。该算法围绕上下文长度与内容的动态感知进行设计,核心思想可归结为两项互补的机制。
首先,CAMPO 采用分阶段训练策略,随着阶段推进逐步放宽模型可处理的上下文长度,使其在计算成本可控的前提下,循序渐进地掌握长链推理技能。
其次,为削减冗余并提升推理效率,算法在奖励端加入冗余惩罚机制:生成结果一旦出现重复便被扣分,且重复越早出现,惩罚越重;相反,若重复仅在末尾发生,惩罚则相对轻微。二者相互作用,使模型既能处理更长的输入,又能保持答案简洁有力。
CAMPO 的训练目标如下所示:
表示当前训练阶段, 与 分别对应该阶段的下限与上限裁剪阈值的分布;函数 评估输出 的重复程度,并据此生成 到 之间的惩罚分数。
完整流程如下图所示,将多阶段长度控制与自适应重复惩罚统一到同一优化框架中,大幅提升了 RL 训练的稳定性与最终推理质量。
4.3 实验结果
实验结果如表 5 所示:MiroMind‑M1‑RL‑32B 在 AIME24 的得分较同尺寸基线提高了 6.7%,在 AIME25 上则拉升了 13.5%,充分证明了 CAMPO 强化学习框架对数学推理的增益。
不过,32B 版本尚未全面赶超所有最新 SOTA;以 Skywork‑OR1‑32B‑Preview 为例,对方在 AIME25 上仍高出 2.6%。
作者将这一下差距主要归因于数据构成:MiroMind‑M1‑RL 训练阶段坚持只用纯数学语料,虽然保证了领域纯净,也削弱了对少量异质题型的迁移能力。
与此同时,MiroMind‑M1‑RL‑7B 基于 MiroMind-M1-SFT,凭借同一训练范式在多项基准上夺得 Qwen‑2.5 系列同规格模型的数学基准第一,取得了最佳性能。
随着训练的推进,图 10 动态的展示了和 Skywork 的性能对比。
4.4 消融以及分享
消融实验进一步验证了重复惩罚的价值。加入该机制后,模型倾向于生成更短且更聚焦的答案,输出空间被自然收敛,rollout 长度缩减,反馈周期随之加快。
图 5 给出了量化结果:在 AIME24 与 AIME25 两项基准的 64 次独立运行中,MiroMind‑M1‑RL‑32B 的平均 token 数显著低于 Skywork‑OR1‑32B‑Preview,而准确率几乎未受影响。
这表明重复惩罚不仅提升了训练效率,也帮助模型在保持正确性的同时避免冗余,输出更为干练。
进一步的实验表明,重复惩罚也显著提升了训练的平稳性。该机制一方面鼓励输出多样化,一方面抑制复读,避免策略被困在狭窄的解答空间。惩罚分值设定在 0 到 1 之间,并随重复出现的先后动态调整:重复越早出现,惩罚越大;若仅在末尾出现,惩罚相对轻微。
这样一来,模型会主动规避早期冗余,而在必要时保留末端重复以确保推理完整。图 6 清晰地展示了这一效果,启用重复惩罚后,训练曲线波动收敛明显收敛,整体稳定性大幅提升。
在整个训练过程中,我们持续监测模型的平均生成长度。实验结果如图 11 所示:在首阶段设置 16 K token 上限时,答案被显著压缩并最终稳定在 8K 至 9K 之间;当第二阶段将上限提升至 32 K 后,平均最大长度随之跃升,部分输出已突破 13K token。
我们推测,早期的严苛限制迫使模型在受限预算内“榨干”推理能力,为后续长序列训练奠定了扎实基础,也使得模型在更长上下文环境中依旧保持稳定且高效的优化态势。
更完整的实验细节与进一步分析,请参见我们的论文正文。
五、总结
本文介绍了由 MiroMind 面向数学推理场景,完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。在 SFT 阶段,团队构建并清洗了大规模高质量语料,使得 7B 模型在多项数学基准上显著超越 DeepSeek 同规格蒸馏版本。
研究团队进一步提出的 CAMPO 框架依托上下文感知的多阶段策略优化,不仅持续提升模型在 RL 训练中的准确度,还压缩了冗余输出,实现了性能与效率的兼得。最终 MiroMind-M1-RL-7B 模型取得同基模、同尺寸的开源模型最佳性能。
编辑:黄继彦
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU