本文是LLM系列文章,针对《A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models》的翻译。
摘要
我们提出了一种通用的两阶段算法,该算法具有可证明的缩放律,适用于大型语言模型(LLMs)的测试时间计算。给定一个输入问题,所提出的算法首先生成N个候选解决方案,然后通过多轮淘汰赛选择最佳解决方案,其中每对候选方案进行K次比较,只有获胜者才能进入下一轮。在极简主义实现中,这两个阶段都可以单独使用黑盒LLM执行,而不需要其他任何东西(例如,没有外部验证器或奖励模型),并且需要总共N×(K+1)个高度并行的LLM调用来解决输入问题。
对于输入问题,假设生成的候选解是正确的,概率 p g e n