就在刚刚,8月6日凌晨,Anthropic突然发布Claude Opus 4.1模型,编程能力重新遥遥领先!
来看 Opus 4.1 的基准测试表现。
1️⃣ SWE-bench 编程测试:分数从 72.5% 提升至 74.5%。作为对比,OpenAI o3 得分 69.1%,谷歌 Gemini 2.5 Pro 则是 67.2%。
编程,Claude 模型还是有绝对的统治力。
2️⃣ TAU-bench 工具调用:从 81.4% 提升至 82.4%(Retail)。作为对比,OpenAI o3 仅为 70.4%。
根据技术报告,还有一些要点 :
1.拒绝有害请求命中率冲到 98.76%!
最新单轮“违规请求”测试显示,Claude Opus 4.1 的无害回复率从上一代 97.27 % 提升到 98.76 %,在标准和延时推理两种模式下都更敢说 “不”——安全阀再次加固。
2. 始终被“安全闸门”锁在 ASL-3:距离失控还有两级缓冲
按 Anthropic 的《Responsible Scaling Policy》,只有跨过 ASL-4 危险阈值才算“显著更能干”。Claude Opus 4.1没触线,继续在 ASL-3 上锁运行——官方甚至没必要做最昂贵的人类红队。
3.“更会写代码”但远不到自我进化:SWE-bench 仍<50%,Cybench 只破 18/35 题。针对自主软件工程的核心评测里,Claude Opus 4.1虽把 Cybench 成功数从 16 提到 18,但离 50% 及以上的“危险红线”还有不小差距;其他 AI 研究任务甚至部分回落,证明尚无“递归自我改进”能力。
技术报告地址:
https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf