刚刚，发布Claude Opus 4.1模型

最新推荐文章于 2025-08-07 22:06:29 发布

编程IT圈

最新推荐文章于 2025-08-07 22:06:29 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzA5NzgzODI5NA==&mid=2454103802&idx=2&sn=277cda9729587a1fcb5ab25ee4c2b00a&chksm=8646127b78aff29fa14e147e0d381b1a0fa332f273d53519708663c3b9d61678221450f25720&scene=126&sessionid=0

就在刚刚，8月6日凌晨，Anthropic突然发布Claude Opus 4.1模型，编程能力重新遥遥领先！

来看 Opus 4.1 的基准测试表现。

1️⃣ SWE-bench 编程测试：分数从 72.5% 提升至 74.5%。作为对比，OpenAI o3 得分 69.1%，谷歌 Gemini 2.5 Pro 则是 67.2%。

编程，Claude 模型还是有绝对的统治力。

2️⃣ TAU-bench 工具调用：从 81.4% 提升至 82.4%（Retail）。作为对比，OpenAI o3 仅为 70.4%。

根据技术报告，还有一些要点 :

1.拒绝有害请求命中率冲到 98.76%！
最新单轮“违规请求”测试显示，Claude Opus 4.1 的无害回复率从上一代 97.27 % 提升到 98.76 %，在标准和延时推理两种模式下都更敢说 “不”——安全阀再次加固。

2. 始终被“安全闸门”锁在 ASL-3：距离失控还有两级缓冲
按 Anthropic 的《Responsible Scaling Policy》，只有跨过 ASL-4 危险阈值才算“显著更能干”。Claude Opus 4.1没触线，继续在 ASL-3 上锁运行——官方甚至没必要做最昂贵的人类红队。

3.“更会写代码”但远不到自我进化：SWE-bench 仍<50%，Cybench 只破 18/35 题。针对自主软件工程的核心评测里，Claude Opus 4.1虽把 Cybench 成功数从 16 提到 18，但离 50% 及以上的“危险红线”还有不小差距；其他 AI 研究任务甚至部分回落，证明尚无“递归自我改进”能力。

技术报告地址：
https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf