方法论

DeepSeek V4 评测榜单深度档案

Benchmark Files EP2 · 13 个 benchmark 横评 · 跟 GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro 对位 · V4-Pro 真实第几梯队

2026-04-29 15 篇信源 读完约 14 分钟

评测榜单 × DeepSeek V4 真实能力深度档案 — 13 个 benchmark 横评、跟 GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro 对位

Benchmark Files · EP2

V4-Pro 真实能力第几梯队?哪些 benchmark 看着饱和?长上下文 + 价格仍是甜点位。

2026 年 4 月 24 日 DeepSeek V4 Preview 发布以来,"V4 真实能力到底如何"一直是开发者群里的高频问题。本文不再看 DeepSeek 官方 PR,而是把 V4-Pro 在 13 个主流评测集上的分数与 Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / Kimi K2.6 / 小米 MiMo V2.5-Pro / 腾讯 Hy3 七家同代旗舰逐项对位[1][2]。结论先放:V4-Pro 是 AA Intelligence Index 52、排名第 14 的"二线 frontier",跟 GPT-5.5(60)/ Opus 4.7(57)/ Gemini 3.1 Pro(57)有 5-8 分差距,但 MRCR 1M 长上下文(83.5)+ 限时折扣价($0.87/M output)+ MIT 开源三件套让它在 RAG / 大批量自动化 / 离线部署的甜点位上几乎无敌[3][4]

52
AA Intelligence Index v4.0 · 排名 #14
80.6%
SWE-bench Verified · 落后 Opus 4.7 7pp
83.5
MRCR 1M 长上下文 · 强项
$0.87
限时折扣输出价 · 比 GPT-5.5 便宜 97%

Landscape

13 个评测集全景:哪些已饱和、哪些仍是 frontier?

Benchmark测什么状态抗污染
AA Intelligence Index v4.010 子项加权综合frontier · 未饱和✅ 部分子项有 holdout
HLE (Humanity's Last Exam)2,500 PhD 级题目frontier · 仍在 37-47% 分化✅ 有私有 holdout · 但 30% 化生答案有误
GPQA Diamond198 PhD 物理/化学/生物 4 选 1接近饱和 · 头部 90%+⚠️ 公开数据集,污染高风险
AIME 2026 / 202530 题美国数学奥赛已饱和 · 顶级 95-99%✅ 每年新题天然防污染
MATH-500500 题 Stanford 竞赛数学完全饱和
MMLU-Pro14 学科 10 选 1已被 AA Index v4.0 移除⚠️ 公开
SWE-bench Verified500 真实 GitHub bug 修复头部 80-87% · 仍区分⚠️ 仓库公开,污染严重
SWE-bench Pro1865 任务(含 276 私有商业代码)frontier · 私有 commercial 才反映真实力✅✅ 私有 + holdout
Terminal-Bench 2.089 个 hard 终端 agent 任务frontier · GPT-5.5 SOTA 82.7%✅ 私有任务集
τ²-Bench Telecomtool use / 多轮对话客户端 schemafrontier
LiveCodeBench v6LeetCode/Codeforces 滚动新题已饱和(V4 = 93.5%)· AA 移除✅✅ 时间窗口防污染
AA-LCR