“全能助理”还是“半成品”？ChatGPT Agent的冰火两重天

最新推荐文章于 2025-07-20 09:58:28 发布

原创最新推荐文章于 2025-07-20 09:58:28 发布 · 266 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#chatgpt #人工智能

OpenAI的最新力作ChatGPT Agent，本应是其在AI代理（Agent）竞赛中的一张王牌，但市场反响却呈现出冰火两重天的局面。

7月18日，OpenAI正式推出了这款产品。它被定位为一个能处理复杂任务的“全能助理”，整合了公司此前在浏览器交互（Operator）和深度研究（DeepResearch）上的积累。

一方面，ChatGPT Agent在多项行业基准测试中再次登顶，技术实力毋庸置疑。但另一方面，首批用户的失望情绪、对其真实效用的质疑，以及发布后意料之中的服务器崩溃，都让这次重磅更新显得有些雷声大、雨点小。

与竞争对手xAI发布Grok 4时的万众期待不同，OpenAI此次的更新更像是一次解决自身短板的“内部整合”，而非一场颠覆性的技术革命。这似乎也预示着，AI巨头们的竞争，正从追求参数和性能的“暴力美学”，悄然转向精耕细作的“产品运营”。

承诺的“全能”，达到了几分？

从技术上看，ChatGPT Agent的逻辑很清晰：将Operator的视觉交互能力与DeepResearch的信息整合能力合二为一。它在一个虚拟环境中，同时调度视觉浏览器、文本浏览器和代码终端，试图打通复杂的任务链。

理论上，它的应用场景相当广泛：

办公自动化： 自动分析你的日历，结合实时新闻，为下个会议生成简报，甚至直接做出一份PPT。
生活助手： 根据你的喜好规划一周菜单，并自动在网上下单采购。
深度研究： 撰写研究报告，处理电子表格，或生成其他深度文档。

性能数据也的确亮眼。在号称“人类最后考试”的HLE测试中，其得分刷新纪录；在电子表格处理测试SpreadsheetBench中，准确率远超微软自家的Copilot。

用户的“差评”，现实的落差

然而，漂亮的跑分并未直接兑现为完美的用户体验。

“你永远可以对OpenAI的发布会保持失望。”一位资深用户的吐槽，代表了社区中不小的声音。争议主要集中在以下几点：

效率与准确性的矛盾： OpenAI声称其在约一半的知识工作任务中能媲美甚至超越人类，但用户的实际体验也恰好是“一半一半”。有人抱怨，一个自己手动15秒就能完成的操作，Agent折腾了35分钟，生成的数据还得花几倍的时间去核对，得不偿失。
功能“鸡肋”： 备受期待的PPT生成功能，被用户吐槽成品“简陋，被市面上任何一个通用Agent秒杀”。
安全与隐私的警钟： Agent能连接用户的Google Drive和Gmail，这引发了巨大的安全担忧。有评论指出，哪怕是99.99%的成功率，放到全美范围也意味着每周可能发生数千次错误。一旦涉及金融交易或敏感邮件，后果不堪设想。
高门槛与低配额： 该功能目前仅对付费用户开放，且每月只有区区40次的使用额度。这与其“全能助理”的宏大定位形成了鲜明对比。

从“暴力美学”到“精耕细作”

如果说马斯克的Grok 4是一场算力碾压的“暴力美学”秀，那么OpenAI这次更像是在“精耕细作”。它没有带来全新的概念，而是回头修补现有产品的缺陷，试图将不同的能力“缝合”得更完美。

这背后是AI竞赛进入下半场的信号。上半场，巨头们用不断刷新的跑分和炫目的演示吸引眼球；下半场，焦点回归到最朴素的问题：如何让用户真正用起来，并心甘情愿地付费？

从这个角度看，ChatGPT Agent的发布，伴随着对付费用户的严格次数限制，更像一场摸索商业模式的大规模公测。OpenAI也在寻找，如何在强大的能力与高昂的成本之间，找到那个可持续的平衡点。

当然，能力越大，风险也越大。OpenAI在报告中坦承，该模型在生物、化学武器等敏感领域被评估为“高能力”，已触发最高级别的安全警报。为此，他们采取了实时监控、禁用记忆功能、关键操作（如发邮件）前请求用户许可等一系列措施。

AI Agent的时代，只有当服务器不再崩溃、生成的内容无需反复核查、用户能放心交出自己的数据时，才算真正到来。在此之前，所有玩家都还有很长的路要走。

而到那时，我们或许将不得不面对一个更严峻的现实问题：AI真的要来抢我们的工作了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。