Anthropic回击苹果的研究论文

在这里插入图片描述

Apple最近发布了一篇病毒式传播的研究论文《思考的幻象》。作为一名AI研究者,我当然不能错过这篇论文。

简而言之?论文基本上认为大型推理模型(LRMs)并非真正在推理,或者可能只是在记忆模式。

但情况发生了逆转。

Anthropic迅速反击,发表了自己的论文,指出Apple实验中的偏见和不公平设置。

涉及到两篇论文在文章末尾。

Apple的论文

在开始之前,让我们简要浏览一下Apple的论文。(如果你已经读过,可以跳过这部分。)

Apple指出,我们用来评估LLM的大多数基准测试都是有缺陷的,主要是因为LLM很容易被这些基准测试污染。

换句话说,模型在训练过程中可能已经见过相同的基准测试问题(或类似问题)。如果是这样,它当然会在这些基准测试中表现出色。

为了避免这种情况,Apple提出使用谜题,比如汉诺塔,我们可以通过增加更多圆盘或改变条件来调整复杂性。这使得模型更难被"污染"。

准确度崩溃

在Apple的实验中,LLM在低复杂度问题(3个圆盘)上优于LRM,主要是因为LRM在简单任务上过度思考。

在蓝色区域,即中等复杂度区域,随着复杂度增加,LRM和LLM都开始急剧下降,尽管LRM仍然比LLM表现更好。

在这里插入图片描述

当圆盘数量达到10个时,LLM和LRM的准确度基本上都降到了0。很有趣,对吧?这种现象被称为"准确度崩溃"。

因此,他们得出结论:推理只有在任务处于中等复杂度时才有帮助。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李孟聊人工智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值