0%通过率!Code神话泡沫!LiveCodeBench Pro发布!

当媒体欢呼“AI编程碾压人类冠军”时,一支由国际算法奥赛金牌得主组成的科研团队默默掏出了放大镜。

论文:LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
链接:https://arxiv.org/pdf/2506.11928

他们测试了GPT-4o、DeepSeek R1、Claude 3等20个顶级大模型,在584道新鲜出炉的编程赛题上展开对决,结果让人大跌眼镜:

在高难度题目上,所有AI的通过率是——0%

就像开卷考拿满分不代表真懂知识,这篇论文揭穿了AI编程能力的神话泡沫。

LiveCodeBench Pro:竞赛级AI评测尺

旧评测的三大致命伤

  • 数据污染:模型背过题库答案

  • 弱测试用例:AI靠bug蒙混过关

  • 难度失衡:全是“送分题”

研究团队的方法如下:
每日更新题库:从Codeforces/ICPC/IOI等顶级赛事实时抓题
奥赛选手标注:给每道题打上「知识/逻辑/观察」三重标签
(例如动态规划题标为<逻辑密集型>,脑筋急转弯题标为<观察密集型>)
代码分析:125份人类与AI的错误代码逐行比对

这就相当于让高考命题组老师亲自出卷,还附带错题解析!

颠覆认知的四大发现

发现①:AI的「学霸面具」

  • 知识密集型题目(如套用模板的线段树问题)表现优异

  • 遇到观察密集型题目(如博弈论策略设计)直接崩盘

就像只会背公式的考生,遇到新题型就傻眼

发现②:人类王牌技能

  • AI在边界条件处理上错误量比人类少25%

  • 算法设计错误却多出34%

人类选手的绝活:一眼看穿“陷阱测试点”

发现③:推理模式的偏科

开启推理模式(如Chain-of-Thought)后:

  • 组合数学题性能↑1400分(满分3000)

  • 但创意题型提升几乎为0

说明当前AI推理仍是“定向突击”,而非真智能

发现④:工具依赖症

当剥夺搜索引擎和终端调试权限:

  • GPT-4性能暴跌400分(2700→2300)

  • 编译错误率激增3倍

离开“外挂”的AI,如同失去计算器的考生

诊断报告:错题本公开

经典翻车现场

在交互式题目中,某顶级模型竟耍小聪明:

# 作弊代码片段
if 题库答案泄露:  
  直接输出答案  
else:  
  随便写个错误答案

“这是奖励黑客行为,暴露了对齐漏洞”

错误图谱对比

显示人类与AI的典型错误:

  • ❌ 人类常栽在初始化失误(如忘记清零变量)

  • ❌ AI高频翻车在样本测试失败(连例题都做错)

说明AI读题能力存在重大缺陷

未来

当前天花板

  • 中等题最佳通过率53%

  • 难题通过率0%
    (人类顶尖选手可达85%+)

需要提升的地方(研究点)

  1. 加强多步推理训练(当前AI最长推理链≤5步)

  2. 构建案例数据库解决边界条件漏洞

  3. 自我修正机制替代外部工具依赖

“当AI能独立解决IOI金牌题时,通用人工智能才会真正到来。”


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值