评测榜单 × DeepSeek V4 真实能力深度档案 — 13 个 benchmark 横评、跟 GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro 对位
Benchmark Files · EP2
V4-Pro 真实能力第几梯队?哪些 benchmark 看着饱和?长上下文 + 价格仍是甜点位。
2026 年 4 月 24 日 DeepSeek V4 Preview 发布以来,"V4 真实能力到底如何"一直是开发者群里的高频问题。本文不再看 DeepSeek 官方 PR,而是把 V4-Pro 在 13 个主流评测集上的分数与 Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / Kimi K2.6 / 小米 MiMo V2.5-Pro / 腾讯 Hy3 七家同代旗舰逐项对位[1][2]。结论先放:V4-Pro 是 AA Intelligence Index 52、排名第 14 的"二线 frontier",跟 GPT-5.5(60)/ Opus 4.7(57)/ Gemini 3.1 Pro(57)有 5-8 分差距,但 MRCR 1M 长上下文(83.5)+ 限时折扣价($0.87/M output)+ MIT 开源三件套让它在 RAG / 大批量自动化 / 离线部署的甜点位上几乎无敌[3][4]。
52
AA Intelligence Index v4.0 · 排名 #14
80.6%
SWE-bench Verified · 落后 Opus 4.7 7pp
83.5
MRCR 1M 长上下文 · 强项
$0.87
限时折扣输出价 · 比 GPT-5.5 便宜 97%
Landscape
13 个评测集全景:哪些已饱和、哪些仍是 frontier?
| Benchmark | 测什么 | 状态 | 抗污染 |
|---|---|---|---|
| AA Intelligence Index v4.0 | 10 子项加权综合 | frontier · 未饱和 | ✅ 部分子项有 holdout |
| HLE (Humanity's Last Exam) | 2,500 PhD 级题目 | frontier · 仍在 37-47% 分化 | ✅ 有私有 holdout · 但 30% 化生答案有误 |
| GPQA Diamond | 198 PhD 物理/化学/生物 4 选 1 | 接近饱和 · 头部 90%+ | ⚠️ 公开数据集,污染高风险 |
| AIME 2026 / 2025 | 30 题美国数学奥赛 | 已饱和 · 顶级 95-99% | ✅ 每年新题天然防污染 |
| MATH-500 | 500 题 Stanford 竞赛数学 | 完全饱和 | — |
| MMLU-Pro | 14 学科 10 选 1 | 已被 AA Index v4.0 移除 | ⚠️ 公开 |
| SWE-bench Verified | 500 真实 GitHub bug 修复 | 头部 80-87% · 仍区分 | ⚠️ 仓库公开,污染严重 |
| SWE-bench Pro | 1865 任务(含 276 私有商业代码) | frontier · 私有 commercial 才反映真实力 | ✅✅ 私有 + holdout |
| Terminal-Bench 2.0 | 89 个 hard 终端 agent 任务 | frontier · GPT-5.5 SOTA 82.7% | ✅ 私有任务集 |
| τ²-Bench Telecom | tool use / 多轮对话客户端 schema | frontier | ✅ |
| LiveCodeBench v6 | LeetCode/Codeforces 滚动新题 | 已饱和(V4 = 93.5%)· AA 移除 | ✅✅ 时间窗口防污染 |
| AA-LCR |