将 150 套提示词推理模版微调给大模型,模型自己就能选最佳解题路径

 


论文:Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

理解

1. 目的

问1:MoR 框架的根本目的是什么?
答1:把多样的推理策略直接“写进”大模型(LLM)的参数里,让模型自动决定该用哪种推理方式,而不用人工为每个任务设计繁琐提示(prompt)。


2. 痛点

问2:为什么现有 LLM 依赖“手工提示”会成为瓶颈?
答2:因为 CoT、ToT 等强推理提示需要针对具体任务精心编写,既耗时也难迁移;换任务或领域时往往要重写,效率低并且难以规模化。


3. 解决思路

问3:MoR 用什么总体思路来摆脱手工提示?
答3:先用更强的闭源大模型(GPT‑4o 等)批量生成多样化推理链模板,再把这些模板同真实题目配对,构造监督微调数据集,最后细调目标模型。这样推理策略被嵌入模型权重,调用时一句普通指令即可激活。


4. “Thought Generation”

问4:论文里的 Thought Generation 阶段具体做什么?
答4:向 GPT‑4o 之类模型发 prompt,请它输出几十到几百条推理链模板(如 50 条、150 条、300 条、500 条)。每条链是一种解题套路——可能是归纳‑演绎、多步假设检验、类比推理等。


5. 推理链模板

问5:什么叫“推理链模板”?它和常见的 CoT 示例有什么区别?
答5:模板是不含具体题目内容的抽象框架,如「先列关键事实 → 归类 → 得出结论」。CoT 示例则通常已带题干、答案和完整文字推理。模板的抽象化更易复用到不同任务。


6. 为什么用 GPT‑4o 生成模板

问6:为何不直接让目标小模型自己想模板?
答6:小模型知识和推理能力不足,生成质量不稳定;借助更强模型能一次性产出质量高、覆盖面广的策略库,提升后续训练效益。


7. “SFT Dataset Construction”

问7:第二阶段 SFT Dataset Construction 的流程是?
答7:

  1. 选定多种推理数据集(HotpotQA、StrategyQA、MMLU 等)。
  2. 抽样题目 → 随机挑 5 条模板组成候选集合。
  3. 让 GPT 判断哪条模板最适合该题(t_best)。
  4. 用 t_best + 题目组成提示,喂给模型作答;答案正确的条目就收进 SFT 训练集
    这样得到的大量 (问题, 推理过程, 正确答案) 三元组,用来监督微调。

8. 监督微调 (SFT) 在这里扮演什么角色?

答8:SFT 让模型显式学习「在某类题目上采用何种推理链」这一映射,把策略‑任务对应关系固化进参数,而不是依赖运行时提示。


9. 模板数量 MoR50/150/300/500 有何意义?

问9:为什么要比较 50、150、300、500 条模板?
答9:衡量“策略多样性”对效果的影响。论文发现 150 条时效果最佳(CoT 准确率 0.730);再增加到 500 条,对提示依赖更小(IO 准确率 0.734),但未必持续增益,说明策略多而不精可能稀释训练信号。


10. IO Prompt 与 CoT Prompt

问10:实验里提到 IO Prompt 与 CoT Prompt,有啥区别?
答10:

  • IO Prompt:只给问题,直接让模型输出答案。
  • CoT Prompt:在问题前加一句「Let’s think step by step」,鼓励模型显式写出中间推理。
    MoR 训练后,即便用简单 IO Prompt,模型也能内部调用合适策略,显示了“去提示化”优势。

11. 结果说明了什么?

问11:MoR150 在 5 个数据集上平均提升 2.2%~13.5%,意味着?
答11:证明把多策略转化为参数级能力后,模型遇到新题能自动检索并执行最合适的推理套路,减少对外部手工提示的依赖,提高了泛化性与实用性。


12. 未来应用

问12:MoR 思想对日常开发和研究有什么启示?
答12:

  • 开发者:可少写或不写长提示,直接用简洁指令调用模型;降低成本、简化接口。
  • 研究者:可探究更多类型的“策略集合” (规划、工具调用、博弈推理) 与其他训练范式(RLHF、对比学习)结合,持续扩充模型的“内生技能库”。
  • 普通用户:获得更“开箱即用”的推理能力,问答体验更自然。

通过以上 12 轮聚焦问答,您应能把 MoR 框架与已知概念(LLM、CoT、SFT 等)串联起来:

MoR = 用 GPT‑4o 生成多样“推理策略模板” → 构造 SFT 数据微调小模型 → 让模型在推理时自动选策略,从而摆脱手工提示。

MoR 把“思维路线(Reasoning Path)”由“人类的即时指令”沉淀为“模型的长期记忆”,让 LLM 从遵命执行者升级为“带脑子”的自适应体。

 


解法拆解

在这里插入图片描述
MoR 框架总览

  • 左侧(Stage 1: Thought Generation)

    • 研究者先向一个能力更强的大模型(示意为红色机器人)提出请求:“Help me generate {n} reasoning templates.”
    • 机器人返回一叠 推理链模板(卡片里列出第 1 条、第 221 条等示例),形成一个“思维库”。
  • 右侧(Stage 2: SFT Dataset Construction)

    1. 从思维库中随机抽 5 条推理模板
    2. 把它们与某个 任务样例(图中是关于乐队 The Police 热门歌曲的选择题)组合。
    3. 让机器人评估这 5 条模板,选出“最佳模板”——图中用小奖杯和手指点按的卡片表示。
    4. 用“最佳模板 + 任务样例”去推理并自动判分,只保留 答案正确 的样本,最终汇成带盾牌图标的 SFT 训练数据集

整张图说明:MoR 通过“先批量生成推理模板→再筛选并与真实题目配对→过滤正确答案”这两大阶段,把多样化的推理策略写入模型参数。

一、MoR 解法的 “问题特征 → 子解法” 拆解

目标问题:小‑中型 LLM 在复杂任务上高度依赖人工 CoT/ToT 提示,迁移差、成本高。

编号关键问题特征对应 子解法子解法作用机理为什么选择这条子解法
F1缺少多样推理套路:模型自身策略库稀疏S₁ 多策略模板生成
(用 GPT‑4o 预生成 M 条抽象推理链 T = {t₁…t_M})
用“更强教师”一次性产出覆盖演绎、归纳、类比、计划…等链条之所以用 S₁,是因为 F1 要求“量大且多样”的策略源,弱模型难自发生成
F2不同任务→应选不同策略:缺少“题‑链”匹配S₂ 最优链选择器
(对每道题随机给 5 条模板→让 GPT 选 t_best)
把“匹配”判别任务仍交给教师模型,减少噪声之所以用 S₂,是因为 F2 本质是“选择”问题,需要外部智力评估
F3弱模型执行力不足:仅有链模板还不够S₃ 自动推理‑回答器
(用 t_best + 题干去推弱模型→输出答案 R_i)
给弱模型“现成思路”以执行,避免它生成链条之所以用 S₃,是因为 F3 强调“执行提示”而非“创造提示”
F4数据正确性需保证S₄ 正确性过滤器
(Eval(si, R_i)=True 才入库)
过滤错误推理、防止噪声监督之所以用 S₄,是因为 F4 要求训练信号干净
F5要把策略写进参数里S₅ SFT 监督微调器
(用收集到的 DSFT 三元组细调目标模型)
将“题‑链‑答”隐式编码到权重,调用时可 IO/CoT之所以用 S₅,是因为 F5 属于“知识内化”问题,SFT 是最低风险途径
F6提示成本要降到最低S₆ 轻量触发接口
(运行时仅用 IO 或“一句 CoT”)
利用已内化的链条,让推理自动化之所以用 S₆,是因为 F6 聚焦“部署阶段易用性”

解法公式化描述
MoR 解法 = S₁(因 F1) + S₂(因 F2) + S₃(因 F3) + S₄(因 F4) + S₅(因 F5) + S₆(因 F6)


示例
  • 特征 F2:同一题库里多种题型 → S₂ 让 GPT 先挑链
  • 特征 F4:若推理结果错误 → S₄ 丢弃,不进训练集

二、子解法之间的逻辑结构

这些子解法形成一条串行链条(上游输出即下游输入),但内部有分支判断(是否正确→过滤)。用决策树表示如下:

                ┌─> S₁ 生成 T
题目 si ─┬─────┴─┬─> S₂ 选 t_best
         │         ├─> S₃ 推理得 Ri
         │         └─> Eval 正确?───否──┐
         │                                │ (丢弃)
         └──────────────是─────────> S₄→存 (si,t_best,Ri)
                                          ↓
                                      S₅ SFT
                                          ↓
                                 部署时 S₆ 触发
  • 主干:S₁→S₂→S₃→(Eval)→S₄→S₅→S₆
  • 分支:“Eval=否” 时停止,防噪声

三、隐性方法(未在教材命名、却是关键)

关键隐性方法定义为什么重要
M★ 策略‑题适配器“让 GPT 读题并从少量模板中选最合适的 t_best”传统 CoT 只贴固定 few‑shot 示例;这里把“选链”定位为子任务,显著降低搜索空间,提升匹配精度
M★★ 动态模板规模调控通过实验找到 150 vs 500 模板在 CoT/IO 场景下的最佳点显示“策略多寡”需与运行时提示强度联动,教材很少强调这一点

四、隐性特征

隐性特征出现位置触发的方法
T★ 策略覆盖度‑难度匹配在“模板数量选择”这一实验变量中隐现决定 M★★ 的调控逻辑
T★★ 回答置信度分布Eval 只看对错;实质上弱模型输出带置信度差异,用于筛掉边界情况影响 S₄ 过滤阈值

五、对同类算法的主要区别

方案共性关键差异
Self‑Discover / Meta‑Reasoning都生成多策略并微调① 先生成代码式推理树而非纯文本模板;② 不显式“链挑选”而用 loss 竞争;MoR 则明确定义选择器 S₂
工具型 ToT/RAG 代理强调外部搜索MoR 完全内化策略,部署时可纯离线,无需调用检索或搜索树
Plain CoT Fine‑Tuning都用 SFTCoT FT 往往固定单一链;MoR 引入模板多样性 + 选链 + 过滤,多一个隐性方法 M★

六、潜在局限性

  1. 教师模型依赖:S₁/S₂ 都假设 GPT‑4o 质量高且可用,闭源依赖带来成本与合规风险。
  2. 模板多样性 vs 训练稳定性:模板数过大时可能稀释梯度信号,需任务‑提示联合调参(已在 MoR500 IO 中显现)。
  3. Eval 精度瓶颈:若自动评测指标不准,会把错误链条写入 DSFT,引入噪声。
  4. 可解释性下降:策略被内化后,运行时模型“选链”不可见,调试难度增大。
  5. 规模外推未知:实验基线为 7 B 模型,模板‑参数比例对 70 B 或更小模型是否仍最优需复测。

小结:MoR 把“生成多策略→选择→过滤→内化”视为一条串行推理‑数据链,通过几条隐性方法(策略‑题适配器、模板规模调控)解决提示依赖难题,但也带来教师模型和评测精度的新风险。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值