大家好,我是安仔,一个每天都在压榨 AI 的躺平打工人。
每次有新的开源大模型发布时,模型厂商都会给出各种测试基准的跑分数据,用来证明自己的实力。
仿佛像我们熟悉的手机厂商一样,“不服跑个分?”
当然,对于大部分用户来说,只要知道分数越高,代表着大模型的能力越强就可以了。
不过有些热爱进步的朋友可能就想问了,这些测试项都是什么意思呢?
那今天安仔就和大家简单的聊聊,大模型在跑分时,究竟都在比什么?
以前段时间 Qwen3 发布时官方给出的各个测试项的跑分数据为例:
我来介绍一下,图中的 ArenaHard、AIME’24/25、LiveCodeBench、CodeForces、Aider、LiveBench、BFCL、Multi‑IF 这几项大模型常用的跑分测试项,都是在测试什么吧。
0、概览
其实,这些基准(benchmark)旨在从不同维度评估大模型的能力:
- ArenaHard 聚焦对话生成中的“硬”样本和人机偏好对齐;
- AIME’24/25 利用美国数学竞赛试题检验模型的数学推理能力;
- LiveCodeBench 与 CodeForces、Aider、LiveBench 等一起,评估模型在代码生成与执行、代码修复、多语种指令跟随等场景的表现;
- BFCL 专注于模型调用外部函数(工具)的能力;
- Multi‑IF 测试多轮、多语种的指令跟随能力。
接下来逐个进行介绍一下,大家别嫌内容太长哦 ~
1、ArenaHard
ArenaHard 是由 LMSYS Org 基于 Chatbot Arena 实时对话数据构建的“硬”样本评测管线。
ArenaHard 会从 Chatbot Arena(一个人机对话众包平台)里专门挑“最难”的 500 条开放式对话提示,然后用 GPT‑4‑Turbo 之类的自动裁判来打分,重点考察模型能否在最具挑战性的场景下和人类偏好保持一致。
简单来说,ArenaHard 就是要考你对“最难”对话的理解与生成能力。
2、AIME’24 / AIME’25
AIME(American Invitational Mathematics Examination)是真人高中生数学赛,题目共 30 道(每年两套各 15 题),答案是 0–999 之间的整数。
人类中位数只答对 4–6 道,非常烧脑。
对模型来说,更是推理与计算的双重考验。
2025 年的 AIME’25 延续了同样难度,研究者常用两届成绩对比来衡量大模型数学推理的进步。
简单来说,AIME 就是用美国高中数学竞赛试题检验大模型的数学推理能力。
3、LiveCodeBench
LiveCodeBench 是一个专门评测代码大模型的基准,特点在于持续采集并保证无污染。
LiveCodeBench 定期(约 3–4 个月)从 LeetCode、AtCoder、CodeForces 抓新题,收录 300+ 道竞赛级编程题,场景涵盖代码生成、自我修复、执行结果预测等一系列能力,代码会实际跑一下来对比输出,保证“真刀真枪”考性能。
简单来说,LiveCodeBench 会持续给出新的竞赛编程题,来考察大模型写代码、修 Bug、预判输出的本事。
4、CodeForces / CodeElo
CodeForces 是全球知名的在线编程竞赛平台,其题目被用来对比模型与人类的竞赛水平。
CodeElo 将最近 6 个月的 CodeForces 题目整理成数据集,包含题目难度、标签等信息,然后由模型直接提交到官方平台获取判题结果,最终给出与人类可比的 Elo 积分,直观地反映模型与真实选手的差距。
简单来说,就是把模型当作参赛选手,直接提交 CodeForces 题目并算出它的 Elo 积分。
5、Aider
Aider 是一个终端内 AI 编程助手,其自建了多语言代码编辑基准。
Aider 的“Polyglot Benchmark” 从 Exercism 平台精选 225 道最具挑战性的编码练习,涵盖 C++、Go、Java、JavaScript、Python、Rust 共 6 种语言,考你把自然语言需求转成可执行代码并通过单元测试的能力。
简单来说,就是挑来 225 道 Exercism 的多语言练习题,让大模型来写和改多种语言代码。
6、LiveBench
LiveBench 是一个广泛覆盖多任务、月度更新的通用型 LLM 基准。
LiveBench 覆盖 18 类任务——从数学竞赛、代码生成与修复,到阅读理解、数据分析等——所有题目均附客观、可验证的标准答案,保证每次评测都不会与模型训练数据“撞车”。
简单来说,LiveBench 会每月更新 18 项任务,确保题库永远“新鲜”且答案客观。
7、BFCL( Berkeley Function‑Calling Leaderboard)
BFCL 专注于评测模型调用外部函数/工具的能力,模拟真实应用场景。
BFCL 的数据集里有 2,000+ 道问题–函数–答案对,包含单次调用、多步递进、多并行调用等场景,最新 V3 版还加入了多轮互动测试,并报告准确度、调用成本与延迟。
简单来说,BFCL 会测试大模型调用外部代码工具/函数的准确度和效率。
8、Multi‑IF
Multi‑IF(Multi‑Turn & Multilingual Instruction Following)评测模型在多轮、多语种场景下的指令跟随能力。
Multi‑IF 让模型处理 3 轮对话,每条对话对应 7 种不同语言(英语、中文、印地语、俄语等),共 4,501 条实例,重点考察模型在多轮交互和非拉丁文字环境下持续按指令执行的稳定性。
总结
以上就是常见的测试基准所考察的内容啦 ~
通过上述各项基准,研究者与工程团队可从开放式对话、数学推理、代码生成与修复、工具调用、多轮多语种指令跟随等多维度全面测评大模型的能力,为模型选型与改进提供量化参考。
所以,当再有新的大模型发布自己的各项测试分数时,你是不是就能知道,这个模型在各方面的能力上都有哪些突破啦!