文章主要内容总结
- 研究背景与目的:近期有报告称大语言模型(LLMs)在竞赛编程中表现超越顶尖人类选手,但现有评估未充分揭示模型真实推理能力。本文通过奥林匹克奖牌获得者的专业视角,重新审视这一说法,分析LLMs与人类专家的差异及存在的局限性。
- LiveCodeBench Pro基准介绍
- 数据来源:从Codeforces、ICPC、IOI等顶级竞赛中精选584道高质量问题,每日更新以减少数据污染。
- 专家注释:由竞赛奖牌获得者对问题进行算法类别标注,并对模型提交的失败代码进行逐行分析。
- 难度分级:分为Easy(≤2000 Elo)、Medium(2000-3000 Elo)、Hard(>3000 Elo)三级,覆盖数学、贪心、数据结构等18个算法类别。
- 核心发现
- 模型表现局限:即使是最优模型在中等难度问题上的Pass@1仅53%,难题上为0%;在需要观察和创造性的问题(如贪心、博弈论)中表现显著低于人类。
- <