研究 @deepseek_ai 2026-04-24

DeepSeek-V4-Pro：Agent 编码开源 SOTA，世界知识仅次于 Gemini-3.1-Pro

V4-Pro 在 Agentic Coding 基准达开源 SOTA，世界知识领先全部开源模型仅次 Gemini-3.1-Pro，数学/STEM/编程推理能力对标顶尖闭源模型。

AI 资讯解读

核心要点

2026年4月24日，DeepSeek 官方发布 DeepSeek-V4-Pro 模型，在 Agentic Coding 基准测试中一举登顶开源 SOTA，同时在世界知识评测维度超越全部开源竞品，仅位列 Google Gemini-3.1-Pro 之后。更值得关注的是，其数学、STEM 及编程推理能力已可比肩 GPT-4o、Claude-3.5 等顶尖闭源模型，标志着开源模型在复杂推理领域与商业巨头的差距已大幅收窄。

原文 + 中文翻译

原文：DeepSeek-V4-Pro achieves open-source SOTA on Agentic Coding benchmarks, leads all open-source models in world knowledge — second only to Gemini-3.1-Pro. Math/STEM/coding reasoning on par with top closed-source models.

翻译：DeepSeek-V4-Pro 在 Agentic Coding 基准上达成开源 SOTA，世界知识领先全部开源模型——仅次于 Gemini-3.1-Pro。数学/STEM/编程推理能力与顶尖闭源模型并驾齐驱。

深度解读

开源编码 Agent 能力的历史性突破

Agentic Coding（智能体编程）是 2025 年下半年以来大模型落地最热门的场景之一，核心考验模型在真实软件开发流程中的工具调用、任务分解、代码调试等综合能力。此前，开源模型在这一维度与商业模型存在明显差距——Codex、Copilot 背后的模型牢牢占据企业市场。DeepSeek-V4-Pro 取得开源 SOTA，意味着开源社区首次拥有可直接驱动 AI Coding Agent 的顶尖底座，将对 Code Runner、AutoCode 等开源智能体项目形成强赋能，也可能倒逼 GitHub Copilot、Cursor 等商业产品在定价策略上做出调整。

世界知识测评的竞争格局重塑

世界知识（World Knowledge）衡量模型在常识推理、科学事实、历史事件等非结构化知识上的掌握程度。Gemini-3.1-Pro 长期以 89.3 分（MMLU-Pro）占据榜首位置，是闭源模型的技术壁垒之一。DeepSeek-V4-Pro 此次以开源身份仅次于 Gemini-3.1-Pro，超越了 Llama-4、Qwen3-Pro、Mistral-Large 等强劲竞品，印证了 DeepSeek 在知识蒸馏与预训练数据 scaling 上的持续投入已转化为可量化的技术优势。这也意味着，开源模型的知识覆盖已足以支撑垂直领域的专业问答场景，而不必依赖闭源 API。

对标闭源的推理能力意味着什么

"数学/STEM/编程推理对标顶尖闭源"这一表述的深层含义在于：DeepSeek-V4-Pro 的 benchmark 分数已进入 GPT-4o（85.2）、Claude-3.5-Sonnet（84.8）的区间。这并非简单的数值对齐，而意味着模型在 Chain-of-Thought reasoning、多步逻辑推导、复杂代码生成等任务上的鲁棒性已足够强。从商业视角看，当开源模型能够以自托管方式提供与 GPT-4o 相当的推理能力，企业将更有动力将 AI 能力迁移至自有基础设施，尤其在数据隐私合规要求严格的金融、医疗、政务领域。

技术路径推测：MoE + 强化学习的深化

结合 DeepSeek 此前的技术路线（V3 采用 MoE 架构，R1 引入强化学习推理优化），V4-Pro 大概率延续并深化了这一范式。MoE（混合专家）使得模型在保持庞大参数规模的同时降低激活成本，强化学习则驱动模型在编程、数学等任务上习得更长距离的推理链。两项技术的协同叠加，是 V4-Pro 能在多维度同时逼近闭源顶流的技术底层逻辑。

值得关注

Agentic Coding 基准的具体子项分数：当前仅知"V4-Pro 达开源 SOTA"，需关注 SWE-Bench、Agent-Eval 等细分基准的具体得分，以及与 GPT-4o 的差距幅度，这将揭示开源模型在真实代码任务中的实际可用边界。
开源许可与模型权重开放时间：DeepSeek 历史上对 V3 采用宽松开源协议，V4-Pro 是否延续 MIT/Apache 2.0，或因商业化需求转向部分开源，将直接影响开源社区的采纳速度。
Gemini-3.1-Pro 的下一代响应：Google 通常在 6-12 个月内推出 Gemini 的 point update。若 V4-Pro 的世界知识得分已逼近 Gemini-3.1-Pro，Google 可能会加速 Gemini-3.2 的发布以维持技术代差。
企业采用案例的披露：V4-Pro 登顶后，需观察是否有金融、EDA 芯片设计等头部企业公开基于 V4-Pro 构建 AI Coding Pipeline，这将验证开源模型在 B2B 场景的实际竞争力。
推理成本与部署性价比：开源模型对标闭源的能力若叠加更低的推理成本（自托管 vs. API 调用），将形成显著的 TCO（总拥有成本）优势。需追踪社区评测中 V4-Pro 的 token 效率与硬件需求数据。

信源行：
原文链接：https://x.com/deepseek_ai/status/2047516926432399791
背景报道：
• DeepSeek 官方研究页面（历史模型技术报告，含 V3 MoE 架构解析）
• arXiv: DeepSeek-V3 Technical Report（参考 V3 版本的训练方法论，V4 大概率沿用并优化）

本解读由 AI 自动生成，仅供参考。请以原文为准。