评测榜单 × DeepSeek V4 真实能力深度档案 — 13 个 benchmark 横评、跟 GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro 对位

Benchmark Files · EP2

V4-Pro 真实能力第几梯队？哪些 benchmark 看着饱和？长上下文 + 价格仍是甜点位。

2026 年 4 月 24 日 DeepSeek V4 Preview 发布以来，"V4 真实能力到底如何"一直是开发者群里的高频问题。本文不再看 DeepSeek 官方 PR，而是把 V4-Pro 在 13 个主流评测集上的分数与 Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro / Kimi K2.6 / 小米 MiMo V2.5-Pro / 腾讯 Hy3 七家同代旗舰逐项对位^[1]^[2]。结论先放：V4-Pro 是 AA Intelligence Index 52、排名第 14 的"二线 frontier"，跟 GPT-5.5（60）/ Opus 4.7（57）/ Gemini 3.1 Pro（57）有 5-8 分差距，但 MRCR 1M 长上下文（83.5）+ 限时折扣价（$0.87/M output）+ MIT 开源三件套让它在 RAG / 大批量自动化 / 离线部署的甜点位上几乎无敌^[3]^[4]。

AA Intelligence Index v4.0 · 排名 #14

80.6%

SWE-bench Verified · 落后 Opus 4.7 7pp

83.5

MRCR 1M 长上下文 · 强项

$0.87

限时折扣输出价 · 比 GPT-5.5 便宜 97%

Landscape

13 个评测集全景：哪些已饱和、哪些仍是 frontier？

Benchmark	测什么	状态	抗污染
AA Intelligence Index v4.0	10 子项加权综合	frontier · 未饱和	✅ 部分子项有 holdout
HLE (Humanity's Last Exam)	2,500 PhD 级题目	frontier · 仍在 37-47% 分化	✅ 有私有 holdout · 但 30% 化生答案有误
GPQA Diamond	198 PhD 物理/化学/生物 4 选 1	接近饱和 · 头部 90%+	⚠️ 公开数据集，污染高风险
AIME 2026 / 2025	30 题美国数学奥赛	已饱和 · 顶级 95-99%	✅ 每年新题天然防污染
MATH-500	500 题 Stanford 竞赛数学	完全饱和	—
MMLU-Pro	14 学科 10 选 1	已被 AA Index v4.0 移除	⚠️ 公开
SWE-bench Verified	500 真实 GitHub bug 修复	头部 80-87% · 仍区分	⚠️ 仓库公开，污染严重
SWE-bench Pro	1865 任务（含 276 私有商业代码）	frontier · 私有 commercial 才反映真实力	✅✅ 私有 + holdout
Terminal-Bench 2.0	89 个 hard 终端 agent 任务	frontier · GPT-5.5 SOTA 82.7%	✅ 私有任务集
τ²-Bench Telecom	tool use / 多轮对话客户端 schema	frontier	✅
LiveCodeBench v6	LeetCode/Codeforces 滚动新题	已饱和（V4 = 93.5%）· AA 移除	✅✅ 时间窗口防污染
AA-LCR AI Insight Pro · 季度 Pro 会员可阅读完整内容解锁全站 100+ 篇深度研报：原文 verbatim · 中文翻译 · 深度解读 · 一手信源核查 · 跨研报关联。一次订阅永久畅读，更新即可读。完整正文、图表与结论原文摘录 + 中文解读一手信源核查全站 Pro 研报持续更新 AI Insight Pro · 季度 ¥99 / 季度开通 Pro 继续阅读已有会员？登录后自动识别权益 © 2026 AI Insight · 本文由 AI 整理，可能有误研报列表首页