刚刚,发布Claude Opus 4.1模型

就在刚刚,8月6日凌晨,Anthropic突然发布Claude Opus 4.1模型,编程能力重新遥遥领先!

来看 Opus 4.1 的基准测试表现。

1️⃣ SWE-bench 编程测试:分数从 72.5% 提升至 74.5%。作为对比,OpenAI o3 得分 69.1%,谷歌 Gemini 2.5 Pro 则是 67.2%。

编程,Claude 模型还是有绝对的统治力。

2️⃣ TAU-bench 工具调用:从 81.4% 提升至 82.4%(Retail)。作为对比,OpenAI o3 仅为 70.4%。

根据技术报告,还有一些要点  :

1.拒绝有害请求命中率冲到 98.76%!
最新单轮“违规请求”测试显示,Claude Opus 4.1 的无害回复率从上一代 97.27 % 提升到 98.76 %,在标准和延时推理两种模式下都更敢说 “不”——安全阀再次加固。

2. 始终被“安全闸门”锁在 ASL-3:距离失控还有两级缓冲
按 Anthropic 的《Responsible Scaling Policy》,只有跨过 ASL-4 危险阈值才算“显著更能干”。Claude Opus 4.1没触线,继续在 ASL-3 上锁运行——官方甚至没必要做最昂贵的人类红队。

3.“更会写代码”但远不到自我进化:SWE-bench 仍<50%,Cybench 只破 18/35 题。针对自主软件工程的核心评测里,Claude Opus 4.1虽把 Cybench 成功数从 16 提到 18,但离 50% 及以上的“危险红线”还有不小差距;其他 AI 研究任务甚至部分回落,证明尚无“递归自我改进”能力。  

技术报告地址: 
https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf

太强悍了,Claude 4.0 国内直接使用  !

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值