8月8日凌晨一点,万众期待的GPT.5重磅来袭!
先说结论,有超预期的地方,也有让人失望的地方。
整体来看,失望大于惊喜。
我举个例子,大家就懂了,GPT4就像iphone4一样,可以说是行业内的里程碑,而GPT5就像iphone5一样,确有突破,但没有4代那样实现大跨步的飞跃。
AI登月时刻”,更像是一句口号。
首先,先说一下此次GPT5的惊喜之处
1.号称拥有博士级的智力水平
在LMrena排行榜中,位列第一。性能实现全面升级,在编程、数学、写作等20多个领域实现“屠榜”,SWE基准测试准确率达75%,Humanity’s Last Exam测试得分42%,医疗咨询幻觉率仅1.6%。
2.首创实时路由器(Router)系统
自动根据任务复杂度分配算力资源(如简单查询快速响应,数学推导则深度思考,动态调用智能模型组合,响应速度提升40%,支持犬儒/学霸等4种人格模式。
3.Agent突破
全新手小白,非前沿技术人员也可以一键实现vibe working,自动写周报和制作PPT、实现界面开发,意味着大模型正逐步具备任务执行的结构认知能力。
不过这些国内的一些agent早就可以实现了,比如Manus,AiPy等。
4.安全机制突破
通过5000小时安全测试,采用"安全补全"机制,幻觉率较GPT-4o降低45%,危险问题处理更合规。说白话就是,之后的gpt不会在一本正经的胡说八道,遇到不会的问题,gpt会直接反馈给你说不会,会的问题能够提供更稳定可靠的答案,这项强大功能对科研、查资料的人来说,非常友好。
5.专业医疗建设
由AI来进行私人医疗团队的搭建,Open AI 的重磅发布会现场,请来了一位患有三种癌症的患者,当医疗报告拿出来后,患者能够将报告上传给gpt5,让其以普通人群也能听懂的大白话讲述给患者听,从而让患者更加清楚自己的病情状况,进而更好的做出医疗建议的抉择。
6.高级语音功效
发音方面更加像真实人类,在学习外语时,可以点开“研学模式”,能够根据你的要求进行响应。
如果你觉得对话语速过快,可以让其调整语速,进而更好的进行适配性学习。
7.基础款免费
GPT5基础版直接免费给用户使用(4代全部下架),就算是进阶版,收费也比以往更加便宜,这点具有极其强竞争力。
再说失望点,为什么说会有失望点?因为这些之前的期待是建立在Open AI用了2年的时间投入了几十亿美元的基础上,这么大的一个投入量,总要有一些额外的惊喜点产生吧!
1.与预告承诺相违背
虽说5是免费开放,但是是逐步开放,并且是有免费的使用次数限制,这里和奥特曼之前说的无限制开放是相矛盾的。
所以这里我们不得不有个怀疑点:就是在免费使用的时候5代会格外顺手,但当你正式充钱后,是否又会像之前的4代一样,存在“降智”行为呢?
这里我们无法确定,只能等后期的使用再来定结论了。
以及网传:免费的基础版,20美刀的进阶版,200美刀的满血版,价格差异十分显著,奥特曼在这里用了一个经典的营销理论——锚定效应,当你看到200美刀的价格后(人民币一个月1400),不说个人,就是企业都会觉得价格太高,瞬间就会觉得20美刀的进阶版极其划算,那这样的定价策略究竟是在做数字普惠还是加深数字鸿沟呢?
2.可以随意更换聊天框的颜色
这个放在预热了很久的发布会上说,并且是作为一个新的升级点,这样真的合适吗,越来越有苹果的味道了。。。。
3.前端审美翻车
为了实现低幻觉率,GPT-5似乎牺牲了极其多,我们来看一组对比图,第一张是用GPT-5做出来的,第二张是用Claude Sonnet4做出来的,哪个好看,自行领会。GPT距离真正意义上的AGI还是有极其长一段路要走
4.图像认知偏差
在预热和发布会阶段宣传自己的产品将会达到怎样的稳定和突破,但实测下来,依旧和之前的SOTA模型一样,存在严重认知偏差。
当然,此类偏差在别的模型中也是会存在的,只是单拿他自己宣传的突破与实际测试进行对比,难免还是会有失望的。
5.发布会现场再三出现低级错误
我们观看Open AI在发布会现场发布的5代GPT的性能测试表,奥特曼,你真的是演都不演了。
第一张图,52.8>69.1? 第二张图,50<47.4?
这种低级错误也能犯,还是现场连犯两次,不得不让人怀疑这些图片都是直接拿AI绘制的。
如果是这样的话,用户该怎么相信你前面所宣传的升级点和突破点呢?会不会也是让AI自己跑出来的ppt呢?
下面这张图为纠正后的,如果说一家AI公司,把精力全放在营销方面,那我们真的极其难相信这家公司会在前沿技术上有更多令人惊喜的突破。
6.选择性升级
在ARC-AGI-2和“humanity’s last exam”测试分数低于Grok4,健康领域也有明显短板,说明gpt的升级是选择性而非全面升级,所以也根本谈不上彻底改变历史,达不到实现“登月”水平。
总的来看,GPT-5在语言理解、逻辑推理、创造性思维等方面展现出的能力,超越了此前我们对 AI系统的想象。但仍然存在着理解深度不足、推理能力有限、创造性思维相对模式化等固有局限。我们距离真正的AGI,还有很长的一段路要走。