OpenAI的最新力作ChatGPT Agent,本应是其在AI代理(Agent)竞赛中的一张王牌,但市场反响却呈现出冰火两重天的局面。
7月18日,OpenAI正式推出了这款产品。它被定位为一个能处理复杂任务的“全能助理”,整合了公司此前在浏览器交互(Operator)和深度研究(DeepResearch)上的积累。
一方面,ChatGPT Agent在多项行业基准测试中再次登顶,技术实力毋庸置疑。但另一方面,首批用户的失望情绪、对其真实效用的质疑,以及发布后意料之中的服务器崩溃,都让这次重磅更新显得有些雷声大、雨点小。
与竞争对手xAI发布Grok 4时的万众期待不同,OpenAI此次的更新更像是一次解决自身短板的“内部整合”,而非一场颠覆性的技术革命。这似乎也预示着,AI巨头们的竞争,正从追求参数和性能的“暴力美学”,悄然转向精耕细作的“产品运营”。
承诺的“全能”,达到了几分?
从技术上看,ChatGPT Agent的逻辑很清晰:将Operator的视觉交互能力与DeepResearch的信息整合能力合二为一。它在一个虚拟环境中,同时调度视觉浏览器、文本浏览器和代码终端,试图打通复杂的任务链。
理论上,它的应用场景相当广泛:
-
办公自动化: 自动分析你的日历,结合实时新闻,为下个会议生成简报,甚至直接做出一份PPT。
-
生活助手: 根据你的喜好规划一周菜单,并自动在网上下单采购。
-
深度研究: 撰写研究报告,处理电子表格,或生成其他深度文档。
性能数据也的确亮眼。在号称“人类最后考试”的HLE测试中,其得分刷新纪录;在电子表格处理测试SpreadsheetBench中,准确率远超微软自家的Copilot。
用户的“差评”,现实的落差
然而,漂亮的跑分并未直接兑现为完美的用户体验。
“你永远可以对OpenAI的发布会保持失望。”一位资深用户的吐槽,代表了社区中不小的声音。争议主要集中在以下几点:
-
效率与准确性的矛盾: OpenAI声称其在约一半的知识工作任务中能媲美甚至超越人类,但用户的实际体验也恰好是“一半一半”。有人抱怨,一个自己手动15秒就能完成的操作,Agent折腾了35分钟,生成的数据还得花几倍的时间去核对,得不偿失。
-
功能“鸡肋”: 备受期待的PPT生成功能,被用户吐槽成品“简陋,被市面上任何一个通用Agent秒杀”。
-
安全与隐私的警钟: Agent能连接用户的Google Drive和Gmail,这引发了巨大的安全担忧。有评论指出,哪怕是99.99%的成功率,放到全美范围也意味着每周可能发生数千次错误。一旦涉及金融交易或敏感邮件,后果不堪设想。
-
高门槛与低配额: 该功能目前仅对付费用户开放,且每月只有区区40次的使用额度。这与其“全能助理”的宏大定位形成了鲜明对比。
从“暴力美学”到“精耕细作”
如果说马斯克的Grok 4是一场算力碾压的“暴力美学”秀,那么OpenAI这次更像是在“精耕细作”。它没有带来全新的概念,而是回头修补现有产品的缺陷,试图将不同的能力“缝合”得更完美。
这背后是AI竞赛进入下半场的信号。上半场,巨头们用不断刷新的跑分和炫目的演示吸引眼球;下半场,焦点回归到最朴素的问题:如何让用户真正用起来,并心甘情愿地付费?
从这个角度看,ChatGPT Agent的发布,伴随着对付费用户的严格次数限制,更像一场摸索商业模式的大规模公测。OpenAI也在寻找,如何在强大的能力与高昂的成本之间,找到那个可持续的平衡点。
当然,能力越大,风险也越大。OpenAI在报告中坦承,该模型在生物、化学武器等敏感领域被评估为“高能力”,已触发最高级别的安全警报。为此,他们采取了实时监控、禁用记忆功能、关键操作(如发邮件)前请求用户许可等一系列措施。
AI Agent的时代,只有当服务器不再崩溃、生成的内容无需反复核查、用户能放心交出自己的数据时,才算真正到来。在此之前,所有玩家都还有很长的路要走。
而到那时,我们或许将不得不面对一个更严峻的现实问题:AI真的要来抢我们的工作了。