将 150 套提示词推理模版微调给大模型,模型自己就能选最佳解题路径
论文:Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies
理解
1. 目的
问1:MoR 框架的根本目的是什么?
答1:把多样的推理策略直接“写进”大模型(LLM)的参数里,让模型自动决定该用哪种推理方式,而不用人工为每个任务设计繁琐提示(prompt)。
2. 痛点
问2:为什么现有 LLM 依赖“手工提示”会成为瓶颈?
答2:因为 CoT、ToT 等强推理提示需要针对具体任务精心编写,既耗时也难迁移;换任务或领域时往往要重写,效率低并且难以规模化。
3. 解决思路
问3:MoR 用什么总体思路来摆脱手工提示?
答3:先用更强的闭源大模型(GPT‑4o 等)批量生成多样化推理链模板,再把这些模板同真实题目配对,构造监督微调数据集,最后细调目标模型。这样推理策略被嵌入模型权重,调用时一句普通指令即可激活。
4. “Thought Generation”
问4:论文里的 Thought Generation 阶段具体做什么?
答4:向 GPT‑4o 之类模型发 prompt,请它输出几十到几百条推理链模板(如 50 条、150 条、300 条、500 条)。每条链是一种解题套路——可能是归纳‑演绎、多步假设检验、类比推理等。
5. 推理链模板
问5:什么叫“推理链模板”?它和常见的 CoT 示例有什么区别?
答5:模板是不含具体题目内容的抽象框架,如「先列关键事实 → 归类 → 得出结论」。CoT 示例则通常已带题干、答案和完整文字推理。模板的抽象化更易复用到不同任务。
6. 为什么用 GPT‑4o 生成模板
问6:为何不直接让目标小模型自己想模板?
答6:小模型知识和推理能力不足,生成质量不稳定;借助更强模型能一次性产出质量高、覆盖面广的策略库,提升后续训练效益。
7. “SFT Dataset Construction”
问7:第二阶段 SFT Dataset Construction 的流程是?
答7:
- 选定多种推理数据集(HotpotQA、StrategyQA、MMLU 等)。
- 抽样题目 → 随机挑 5 条模板组成候选集合。
- 让 GPT 判断哪条模板最适合该题(t_best)。
- 用 t_best + 题目组成提示,喂给模型作答;答案正确的条目就收进 SFT 训练集。
这样得到的大量 (问题, 推理过程, 正确答案) 三元组,用来监督微调。
8. 监督微调 (SFT) 在这里扮演什么角色?
答8:SFT 让模型显式学习「在某类题目上采用何种推理链」这一映射,把策略‑任务对应关系固化进参数,而不是依赖运行时提示。
9. 模板数量 MoR50/150/300/500 有何意义?
问9:为什么要比较 50、150、300、500 条模板?
答9:衡量“策略多样性”对效果的影响。论文发现 150 条时效果最佳(CoT 准确率 0.730);再增加到 500 条,对提示依赖更小(IO 准确率 0.734),但未必持续增益,说明策略多而不精可能稀释训练信号。
10. IO Prompt 与 CoT Prompt
问10:实验里提到 IO Prompt 与 CoT Prompt,有啥区别?
答10:
- IO Prompt:只给问题,直接让模型输出答案。
- CoT Prompt:在问题前加一句「Let’s think step by step」,鼓励模型显式写出中间推理。
MoR 训练后,即便用简单 IO Prompt,模型也能内部调用合适策略,显示了“去提示化”优势。
11. 结果说明了什么?
问11:MoR150 在 5 个数据集上平均提升 2.2%~13.5%,意味着?
答11:证明把多策略转化为参数级能力后,模型遇到新题能自动检索并执行最合适的推理套路,减少对外部手工提示的依赖,提高了泛化性与实用性。
12. 未来应用
问12:MoR 思想对日常开发和研究有什么启示?
答12:
- 开发者:可少写或不写长提示,直接用简洁指令调用模型;降低成本、简化接口。
- 研究者:可探究更多类型的“策略集合” (规划、工具调用、博弈推理) 与其他训练范式(RLHF、对比学习)结合,持续扩充模型的“内生技能库”。
- 普通用户:获得更“开箱即用”的推理能力,问答体验更自然。
通过以上 12 轮聚焦问答,您应能把 MoR 框架与已知概念(LLM、CoT、SFT 等)串联起来:
MoR = 用 GPT‑4o 生成多样“推理策略模板” → 构造 SFT 数据微调小模型 → 让模型在推理时自动选策略,从而摆脱手工提示。
MoR 把“思维路线(Reasoning Path)”由“人类的即时指令”沉淀为“模型的长期记忆”,让 LLM 从遵命执行者升级为“带脑子”的自适应体。
解法拆解
MoR 框架总览
-
左侧(Stage 1: Thought Generation)
- 研究者先向一个能力更强的大模型(示意为红色机器人)提出请求:“Help me generate {n} reasoning templates.”
- 机器人返回一叠 推理链模板(卡片里列出第 1 条、第 221 条等示例),形成一个“思维库”。
-
右侧(Stage 2: SFT Dataset Construction)
- 从思维库中随机抽 5 条推理模板。
- 把它们与某个 任务样例(图中是关于乐队 The Police 热门歌曲的选择题)组合。
- 让机器人评估这 5 条模板,选出“最佳模板”——图中用小奖杯和手指点按的卡片表示。
- 用“最佳模板 + 任务样例”去推理并自动判分,只保留 答案正确 的样本,最终汇成带盾牌图标的 SFT 训练数据集。
整张图说明:MoR 通过“先批量生成推理模板→再筛选并与真实题目配对→过滤正确答案”这两大阶段,把多样化的推理策略写入模型参数。
一、MoR 解法的 “问题特征 → 子解法” 拆解
目标问题:小‑中型 LLM 在复杂任务上高度依赖人工 CoT/ToT 提示,迁移差、成本高。
编号 | 关键问题特征 | 对应 子解法 | 子解法作用机理 | 为什么选择这条子解法 |
---|---|---|---|---|
F1 | 缺少多样推理套路:模型自身策略库稀疏 | S₁ 多策略模板生成 (用 GPT‑4o 预生成 M 条抽象推理链 T = {t₁…t_M}) | 用“更强教师”一次性产出覆盖演绎、归纳、类比、计划…等链条 | 之所以用 S₁,是因为 F1 要求“量大且多样”的策略源,弱模型难自发生成 |
F2 | 不同任务→应选不同策略:缺少“题‑链”匹配 | S₂ 最优链选择器 (对每道题随机给 5 条模板→让 GPT 选 t_best) | 把“匹配”判别任务仍交给教师模型,减少噪声 | 之所以用 S₂,是因为 F2 本质是“选择”问题,需要外部智力评估 |
F3 | 弱模型执行力不足:仅有链模板还不够 | S₃ 自动推理‑回答器 (用 t_best + 题干去推弱模型→输出答案 R_i) | 给弱模型“现成思路”以执行,避免它生成链条 | 之所以用 S₃,是因为 F3 强调“执行提示”而非“创造提示” |
F4 | 数据正确性需保证 | S₄ 正确性过滤器 (Eval(si, R_i)=True 才入库) | 过滤错误推理、防止噪声监督 | 之所以用 S₄,是因为 F4 要求训练信号干净 |
F5 | 要把策略写进参数里 | S₅ SFT 监督微调器 (用收集到的 DSFT 三元组细调目标模型) | 将“题‑链‑答”隐式编码到权重,调用时可 IO/CoT | 之所以用 S₅,是因为 F5 属于“知识内化”问题,SFT 是最低风险途径 |
F6 | 提示成本要降到最低 | S₆ 轻量触发接口 (运行时仅用 IO 或“一句 CoT”) | 利用已内化的链条,让推理自动化 | 之所以用 S₆,是因为 F6 聚焦“部署阶段易用性” |
解法公式化描述
MoR 解法 = S₁(因 F1) + S₂(因 F2) + S₃(因 F3) + S₄(因 F4) + S₅(因 F5) + S₆(因 F6)
示例
- 特征 F2:同一题库里多种题型 → S₂ 让 GPT 先挑链
- 特征 F4:若推理结果错误 → S₄ 丢弃,不进训练集
二、子解法之间的逻辑结构
这些子解法形成一条串行链条(上游输出即下游输入),但内部有分支判断(是否正确→过滤)。用决策树表示如下:
┌─> S₁ 生成 T
题目 si ─┬─────┴─┬─> S₂ 选 t_best
│ ├─> S₃ 推理得 Ri
│ └─> Eval 正确?───否──┐
│ │ (丢弃)
└──────────────是─────────> S₄→存 (si,t_best,Ri)
↓
S₅ SFT
↓
部署时 S₆ 触发
- 主干:S₁→S₂→S₃→(Eval)→S₄→S₅→S₆
- 分支:“Eval=否” 时停止,防噪声
三、隐性方法(未在教材命名、却是关键)
关键隐性方法 | 定义 | 为什么重要 |
---|---|---|
M★ 策略‑题适配器 | “让 GPT 读题并从少量模板中选最合适的 t_best” | 传统 CoT 只贴固定 few‑shot 示例;这里把“选链”定位为子任务,显著降低搜索空间,提升匹配精度 |
M★★ 动态模板规模调控 | 通过实验找到 150 vs 500 模板在 CoT/IO 场景下的最佳点 | 显示“策略多寡”需与运行时提示强度联动,教材很少强调这一点 |
四、隐性特征
隐性特征 | 出现位置 | 触发的方法 |
---|---|---|
T★ 策略覆盖度‑难度匹配 | 在“模板数量选择”这一实验变量中隐现 | 决定 M★★ 的调控逻辑 |
T★★ 回答置信度分布 | Eval 只看对错;实质上弱模型输出带置信度差异,用于筛掉边界情况 | 影响 S₄ 过滤阈值 |
五、对同类算法的主要区别
方案 | 共性 | 关键差异 |
---|---|---|
Self‑Discover / Meta‑Reasoning | 都生成多策略并微调 | ① 先生成代码式推理树而非纯文本模板;② 不显式“链挑选”而用 loss 竞争;MoR 则明确定义选择器 S₂ |
工具型 ToT/RAG 代理 | 强调外部搜索 | MoR 完全内化策略,部署时可纯离线,无需调用检索或搜索树 |
Plain CoT Fine‑Tuning | 都用 SFT | CoT FT 往往固定单一链;MoR 引入模板多样性 + 选链 + 过滤,多一个隐性方法 M★ |
六、潜在局限性
- 教师模型依赖:S₁/S₂ 都假设 GPT‑4o 质量高且可用,闭源依赖带来成本与合规风险。
- 模板多样性 vs 训练稳定性:模板数过大时可能稀释梯度信号,需任务‑提示联合调参(已在 MoR500 IO 中显现)。
- Eval 精度瓶颈:若自动评测指标不准,会把错误链条写入 DSFT,引入噪声。
- 可解释性下降:策略被内化后,运行时模型“选链”不可见,调试难度增大。
- 规模外推未知:实验基线为 7 B 模型,模板‑参数比例对 70 B 或更小模型是否仍最优需复测。
小结:MoR 把“生成多策略→选择→过滤→内化”视为一条串行推理‑数据链,通过几条隐性方法(策略‑题适配器、模板规模调控)解决提示依赖难题,但也带来教师模型和评测精度的新风险。