HLE 深度档案 — 「最后的考试」、29% 答案错误争议、Gemini 3.1 Pro 拿下 46.4% SOTA

Benchmark Files · EP1

2,500 题、50 万美元奖金、人类专家 90% — Humanity's Last Exam 是怎么出题、怎么评、谁在做的。

2025 年 1 月 24 日，Center for AI Safety（CAIS）联合 Scale AI 发布 Humanity's Last Exam（HLE），由 Dan Hendrycks 等 1,118 位作者共同署名^[1]^[2]。题库聚焦"模型最难答的封闭式学术考题"，意图替代已饱和的 MMLU。一年三个月后的今天（2026-04-26），SOTA 已从发布时的 9.4%（DeepSeek R1）跃升至 46.44%（Gemini 3.1 Pro Preview）^[3]，逼近论文预言的"2025 年底过 50%"门槛——同时，2025 年 7 月 FutureHouse 发布的同行评议复评显示 HLE 29% 化学 / 生物题答案与文献矛盾^[4]，HLE 团队随即启动 HLE-Rolling 动态修订机制^[5]。

2,500

题数 · 公开题库 · 含私有 held-out 集

$500K

总奖金池 · 不是每题 $5K

46.4%

当前 SOTA · Gemini 3.1 Pro Preview

29%

化学/生物题答案与文献矛盾 · FutureHouse 复评

HLE 官网 lastexam.ai 首页 — HLE 官网 lastexam.ai —— 含 Latest News 时间线（2026-01-28 Nature 正式发表 / 2025-10-08 HLE-Rolling 上线 / 2025-04-03 Bug Bounty 关闭后题库定稿 2,500 题），CAIS + Scale AI 联合品牌。

Why HLE

为什么 MMLU 不够用了。

2020 年 Hendrycks 等人推出的 MMLU 是 LLM 行业第一个全学科 benchmark。但到 2024 年底：GPT-4 / Claude 3 / Gemini 1.5 都已逼近或越过 90% —— 与人类专家几乎持平。MMLU 饱和，区分不出 frontier 模型的真实能力差距。

HLE 是 Hendrycks 自己出手解题的方案：把同样的"全学科覆盖"理念，叠加三个新约束：

博士级 / 顶级竞赛级难度——不是大学本科水平
non-searchable——不能简单 Google 检索得到
机器预筛——任何当前 frontier LLM 答对的题直接退稿，留下的都是"目前模型答不出的题"

How It's Built

怎么出题：双轮筛选 + 50 万美元奖金 + 1,000 名学科专家。

阶段	做法	数据
征集	奖金机制 + 论文署名	1,000+ 专家 · 50 个国家 · 500+ 机构
奖池	Top 50 题 × $5,000 = $250K · 后 500 题 × $500 = $250K · 其余靠声誉	总池 $500K（不是「每题 $5K」）
Stage 1 — L AI Insight Pro · 季度 Pro 会员可阅读完整内容解锁全站 100+ 篇深度研报：原文 verbatim · 中文翻译 · 深度解读 · 一手信源核查 · 跨研报关联。一次订阅永久畅读，更新即可读。完整正文、图表与结论原文摘录 + 中文解读一手信源核查全站 Pro 研报持续更新 AI Insight Pro · 季度 ¥99 / 季度开通 Pro 继续阅读已有会员？登录后自动识别权益 © 2026 AI Insight · 本文由 AI 整理，可能有误研报列表首页