开源模型也能卷出SOTA！MiroMind-M1高效推理压缩token，训练数据与代码全透明

转载于 2025-08-23 17:01:38 发布 · 3 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247659077&idx=2&sn=024131b812da4b2aefd2ec44912f788f&chksm=e8f675392e18db947a905dd3d0b783ae7ed83863954d69f47779b4e15a0d06b12a66e1999bd7&scene=126&sessionid=0

本文约3000字，建议阅读5分钟
本文介绍了由 MiroMind 面向数学推理场景，完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。

近日，MiroMind（集智进化）推出 MiroMind‑M1 系列数学推理语言模型（RLMs），训练数据、代码、模型配方、测试等全流程全部开源，覆盖监督微调（SFT）和强化学习（RL）两大部分。

MiroMind-M1 在数学基准 AIME24、AIME25、MATH500 上，性能持平、甚至超越同基模、同尺寸开源 RLMs，并在保持准确度的同时显著缩短了答案长度、提高了推理效率。

论文链接：

https://arxiv.org/abs/2507.14683

代码链接：

https://github.com/MiroMindAsia/MiroMind-M1

模型链接：

https://huggingface.co/miromind-ai/MiroMind-M1-SFT-7B

https://huggingface.co/miromind-ai/MiroMind-M1-RL-7B

https://huggingface.co/miromind-ai/MiroMind-M1-RL-32B

数据链接：

https://huggingface.co/datasets/miromind-ai/MiroMind-M1-SFT-719K

https://huggingface.co/datasets/miromind-ai/MiroMind-M1-RL-62K

一、背景：数学为何成为突破口

大语言模型（LLMs）已从文本生成发展到跨领域的高级推理能力，催生了推理语言模型（RLMs）的兴起。在众多应用领域中，数学推理因其对多步逻辑和抽象推理的要求，成为衡量 RLM 能力的关键基准。

虽然 GPT‑o3、Claude Sonnet 4 等闭源模型在该类任务上表现亮眼，但缺失公开数据、配置与训练细节，使得研究者难以复现并进一步改进。现有开源项目虽然数量众多，却仍然存在数据不全、脚本缺失或流程不完整的问题，社区难以在其之上快速迭代。

MiroMind 的理念是让研究“可验证、可复现、可延伸”，因此发布了完整的技术栈：模型（MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)，数据（MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K）以及所有训练和评估代码。

二、MiroMind-M1

具体而言，MiroMind-M1 分两个阶段进行训练：首先，在包含 719K 数学推理问题（附带经过验证的思维链（CoT）轨迹）的数据上进行监督微调（SFT）；随后，在 62K 具有挑战性且可验证的问题上进行可验证奖励强化学习（RLVR）。

为了增强 RLVR 过程的鲁棒性和效率，训练过程引入了上下文感知多阶段优化（CAMPO）算法，该算法将长度渐进式训练与自适应冗余惩罚相结合，以鼓励上下文感知的强化学习训练。

MiroMind-M1 在 AIME24、AIME25 和 MATH500 基准测试中，在基于 Qwen-2.5 的完全开源 7B 模型中取得了SOTA 的性能，32B 模型与开源最强持平。同时，得益于 CAMPO 算法，MiroMind-M1-RL 在保持准确率的前提下，节省了近 20% token 数。

三、MiroMind-M1-SFT：719K 高质样本超越 DeepSeek 蒸馏 7B 模型

本章节详细介绍了如何构建高质量的监督微调（SFT）数据集，以复现甚至超越 DeepSeek-R1 蒸馏模型（7B）在数学推理方面的性能。主要内容包括数据来源、数据处理方法以及 SFT 训练。

3.1 数据整理

为显著提升 LLM 在数学推理场景中的表现，团队首先从  R1  蒸馏数据切入，展开大规模收集与精细过滤。

原始素材来自 OpenR1、OpenThoughts、Light‑R1 以及 Synthetic‑1 四个公开渠道；在全面去重与去污染后，最终沉淀出 719K 高质量样本，为监督微调阶段奠定了坚实的数据基础。

3.2 实验结果

表 2 的对比结果显示，MiroMind‑M1‑SFT‑7B 在 AIME24、AIME25 与 MATH‑500 上分别取得 60.5、45.0 和 94.6 的得分，三项指标均领先同基模、同尺寸的其他开源 SFT 模型，充分佐证了数据与训练策略的有效性；同时，其表现亦超越了最新发布的 MiMo‑7B‑SFT。

3.3 模型训练分享

本文发现，在数量相同的情况下，更长的思考路径可以带来更好的蒸馏效果。如表 4，在 SFT 训练数据维 30k 与 50k 的情况下，更长的路径均能取得更好的效果。

四、MiroMind-M1-RL：CAMPO 让 RL 又强又省

最近的研究表明，强化学习（RL）可以提高基模型和R1蒸馏模型的推理性能。一个关键点是，性能的提升通常伴随着响应长度的增加。然而，更长的输出会引入冗余和不必要的重复，这表明效率是一个同样重要但尚未充分探索的方面。

本章节介绍了 MiroMind-M1-RL 模型系列，包括 MiroMind-M1-RL-32B 和 MiroMind-M1-RL-7B。MiroMind-M1-RL 不仅提高了性能，还增强了数学推理的 token 使用效率。

4.1 数据整理

为拿到一套可有效驱动强化学习的优质数学语料，团队先从多路公开资源汇集海量题目，再通过四道严苛关卡逐一过滤：先剔除无法验证的样本，再去重，随后按难度仅保留中等题，最后移除答案过长或自动校验困难的条目。

经过层层筛选，原始数据被淘汰 94%，只剩下 62K 既可验证又已去污染的精炼题目，并确保与评测基准零重叠，为 RL 训练提供了一块干净而扎实的基石。

4.2 上下文感知的多阶段强化学习

为充分利用强化学习阶段的训练信号，研究团队提出了上下文感知多阶段策略优化（CAMPO）算法。该算法围绕上下文长度与内容的动态感知进行设计，核心思想可归结为两项互补的机制。

首先，CAMPO 采用分阶段训练策略，随着阶段推进逐步放宽模型可处理的上下文长度，使其在计算成本可控的前提下，循序渐进地掌握长链推理技能。

其次，为削减冗余并提升推理效率，算法在奖励端加入冗余惩罚机制：生成结果一旦出现重复便被扣分，且重复越早出现，惩罚越重；相反，若重复仅在末尾发生，惩罚则相对轻微。二者相互作用，使模型既能处理更长的输入，又能保持答案简洁有力。

CAMPO 的训练目标如下所示：

表示当前训练阶段，与分别对应该阶段的下限与上限裁剪阈值的分布；函数评估输出的重复程度，并据此生成到之间的惩罚分数。

完整流程如下图所示，将多阶段长度控制与自适应重复惩罚统一到同一优化框架中，大幅提升了 RL 训练的稳定性与最终推理质量。

4.3 实验结果

实验结果如表  5 所示：MiroMind‑M1‑RL‑32B 在 AIME24 的得分较同尺寸基线提高了 6.7%，在 AIME25 上则拉升了 13.5%，充分证明了 CAMPO 强化学习框架对数学推理的增益。

不过，32B 版本尚未全面赶超所有最新 SOTA；以 Skywork‑OR1‑32B‑Preview 为例，对方在 AIME25 上仍高出 2.6%。

作者将这一下差距主要归因于数据构成：MiroMind‑M1‑RL 训练阶段坚持只用纯数学语料，虽然保证了领域纯净，也削弱了对少量异质题型的迁移能力。

与此同时，MiroMind‑M1‑RL‑7B 基于 MiroMind-M1-SFT，凭借同一训练范式在多项基准上夺得 Qwen‑2.5 系列同规格模型的数学基准第一，取得了最佳性能。

随着训练的推进，图 10 动态的展示了和 Skywork 的性能对比。

4.4 消融以及分享

消融实验进一步验证了重复惩罚的价值。加入该机制后，模型倾向于生成更短且更聚焦的答案，输出空间被自然收敛，rollout 长度缩减，反馈周期随之加快。

图  5 给出了量化结果：在 AIME24 与 AIME25 两项基准的 64 次独立运行中，MiroMind‑M1‑RL‑32B 的平均 token 数显著低于 Skywork‑OR1‑32B‑Preview，而准确率几乎未受影响。

这表明重复惩罚不仅提升了训练效率，也帮助模型在保持正确性的同时避免冗余，输出更为干练。

进一步的实验表明，重复惩罚也显著提升了训练的平稳性。该机制一方面鼓励输出多样化，一方面抑制复读，避免策略被困在狭窄的解答空间。惩罚分值设定在 0 到 1 之间，并随重复出现的先后动态调整：重复越早出现，惩罚越大；若仅在末尾出现，惩罚相对轻微。

这样一来，模型会主动规避早期冗余，而在必要时保留末端重复以确保推理完整。图  6 清晰地展示了这一效果，启用重复惩罚后，训练曲线波动收敛明显收敛，整体稳定性大幅提升。

在整个训练过程中，我们持续监测模型的平均生成长度。实验结果如图  11 所示：在首阶段设置 16 K token 上限时，答案被显著压缩并最终稳定在 8K 至 9K 之间；当第二阶段将上限提升至 32 K 后，平均最大长度随之跃升，部分输出已突破 13K token。

我们推测，早期的严苛限制迫使模型在受限预算内“榨干”推理能力，为后续长序列训练奠定了扎实基础，也使得模型在更长上下文环境中依旧保持稳定且高效的优化态势。

更完整的实验细节与进一步分析，请参见我们的论文正文。

五、总结

本文介绍了由 MiroMind 面向数学推理场景，完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。在 SFT 阶段，团队构建并清洗了大规模高质量语料，使得 7B 模型在多项数学基准上显著超越 DeepSeek 同规格蒸馏版本。

研究团队进一步提出的 CAMPO 框架依托上下文感知的多阶段策略优化，不仅持续提升模型在 RL 训练中的准确度，还压缩了冗余输出，实现了性能与效率的兼得。最终 MiroMind-M1-RL-7B 模型取得同基模、同尺寸的开源模型最佳性能。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

开源模型也能卷出SOTA！MiroMind-M1高效推理压缩token，训练数据与代码全透明

本文约3000字，建议阅读5分钟 本文介绍了由 MiroMind 面向数学推理场景，完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。

`本文约3000字，建议阅读5分钟本文介绍了由 MiroMind 面向数学推理场景，完整开源的涵盖代码、数据与模型的一体化训练体系 MiroMind-M1。`