Apple最近发布了一篇病毒式传播的研究论文《思考的幻象》。作为一名AI研究者,我当然不能错过这篇论文。
简而言之?论文基本上认为大型推理模型(LRMs)并非真正在推理,或者可能只是在记忆模式。
但情况发生了逆转。
Anthropic迅速反击,发表了自己的论文,指出Apple实验中的偏见和不公平设置。
涉及到两篇论文在文章末尾。
Apple的论文
在开始之前,让我们简要浏览一下Apple的论文。(如果你已经读过,可以跳过这部分。)
Apple指出,我们用来评估LLM的大多数基准测试都是有缺陷的,主要是因为LLM很容易被这些基准测试污染。
换句话说,模型在训练过程中可能已经见过相同的基准测试问题(或类似问题)。如果是这样,它当然会在这些基准测试中表现出色。
为了避免这种情况,Apple提出使用谜题,比如汉诺塔,我们可以通过增加更多圆盘或改变条件来调整复杂性。这使得模型更难被"污染"。
准确度崩溃
在Apple的实验中,LLM在低复杂度问题(3个圆盘)上优于LRM,主要是因为LRM在简单任务上过度思考。
在蓝色区域,即中等复杂度区域,随着复杂度增加,LRM和LLM都开始急剧下降,尽管LRM仍然比LLM表现更好。
当圆盘数量达到10个时,LLM和LRM的准确度基本上都降到了0。很有趣,对吧?这种现象被称为"准确度崩溃"。
因此,他们得出结论:推理只有在任务处于中等复杂度时才有帮助。<