方法论

HLE 深度档案 · Benchmark Files EP1

「最后的考试」· 29% 答案错误争议 · Gemini 3.1 Pro 拿下 46.4% SOTA · 6 道真实样题 verbatim

2026-04-26 12 篇信源 读完约 13 分钟

HLE 深度档案 — 「最后的考试」、29% 答案错误争议、Gemini 3.1 Pro 拿下 46.4% SOTA

Benchmark Files · EP1

2,500 题、50 万美元奖金、人类专家 90% — Humanity's Last Exam 是怎么出题、怎么评、谁在做的。

2025 年 1 月 24 日,Center for AI Safety(CAIS)联合 Scale AI 发布 Humanity's Last Exam(HLE),由 Dan Hendrycks 等 1,118 位作者共同署名[1][2]。题库聚焦"模型最难答的封闭式学术考题",意图替代已饱和的 MMLU。一年三个月后的今天(2026-04-26),SOTA 已从发布时的 9.4%(DeepSeek R1)跃升至 46.44%(Gemini 3.1 Pro Preview)[3],逼近论文预言的"2025 年底过 50%"门槛——同时,2025 年 7 月 FutureHouse 发布的同行评议复评显示 HLE 29% 化学 / 生物题答案与文献矛盾[4],HLE 团队随即启动 HLE-Rolling 动态修订机制[5]

2,500
题数 · 公开题库 · 含私有 held-out 集
$500K
总奖金池 · 不是每题 $5K
46.4%
当前 SOTA · Gemini 3.1 Pro Preview
29%
化学/生物题答案与文献矛盾 · FutureHouse 复评
HLE 官网 lastexam.ai 首页
HLE 官网 lastexam.ai —— 含 Latest News 时间线(2026-01-28 Nature 正式发表 / 2025-10-08 HLE-Rolling 上线 / 2025-04-03 Bug Bounty 关闭后题库定稿 2,500 题),CAIS + Scale AI 联合品牌。

Why HLE

为什么 MMLU 不够用了。

2020 年 Hendrycks 等人推出的 MMLU 是 LLM 行业第一个全学科 benchmark。但到 2024 年底:GPT-4 / Claude 3 / Gemini 1.5 都已逼近或越过 90% —— 与人类专家几乎持平。MMLU 饱和,区分不出 frontier 模型的真实能力差距。

HLE 是 Hendrycks 自己出手解题的方案:把同样的"全学科覆盖"理念,叠加三个新约束:

  1. 博士级 / 顶级竞赛级难度——不是大学本科水平
  2. non-searchable——不能简单 Google 检索得到
  3. 机器预筛——任何当前 frontier LLM 答对的题直接退稿,留下的都是"目前模型答不出的题"

How It's Built

怎么出题:双轮筛选 + 50 万美元奖金 + 1,000 名学科专家。

阶段做法数据
征集奖金机制 + 论文署名1,000+ 专家 · 50 个国家 · 500+ 机构
奖池Top 50 题 × $5,000 = $250K · 后 500 题 × $500 = $250K · 其余靠声誉总池 $500K(不是「每题 $5K」)
Stage 1 — L