"缩放曲线较为平坦"的技术解释
1. 基本定义
在语言模型研究中,“缩放曲线”(Scaling Curve)指模型性能(如准确率)随模型规模(参数数量/计算量)增长的变化趋势。"平坦"意味着增大模型规模带来的性能提升不明显,即曲线斜率低。
2. 三种典型缩放模式
3. 与CoT收益的关系
-
条件成立时(曲线平坦):
当模型已处于性能饱和区(如>100B参数),继续增大规模对普通提示(Standard Prompting)效果有限,但CoT仍能显著提升性能。
案例:- PaLM 540B在GSM8K数学题上:
- 标准提示:25% → 540B时仅提升至28%(平坦)
- CoT提示:17% → 56%(陡峭)
- PaLM 540B在GSM8K数学题上:
-
条件不成立时(曲线陡峭):
若模型处于性能上升期(如1B→10B),普通提示本身仍有较大优化空间,此时CoT的相对优势较小。
4. 根本原因
- 平坦期的本质:模型已掌握任务的基础模式(如算术规则),但缺乏推理结构引导。CoT通过分步提示解决了这一问题。
- 数学表达:
设性能P与规模S的关系为:
当S足够大时,log(S)增长远慢于S^k,此时CoT优势明显。P_standard(S) = a * log(S) + b (普通提示,对数增长) P_cot(S) = c * S^k + d (CoT提示,幂律增长,k>0)
5. 工程启示
- 模型选型:
- 若资源有限(模型<10B):优先优化普通提示
- 若用大模型(>100B):必须采用CoT提示
- 成本权衡:
在平坦区,增大10倍模型规模的收益可能不如优化CoT提示。