← 返回资讯
大模型 @swyx 2026-04-29

swyx 评 DeepSeek v4:不刷榜直甩 SOTA 长上下文与最强开源基模

swyx 称 DeepSeek v4 不刷榜也不秀训练成本,亮出 CSA/HCA/mHC 等 SOTA 长上下文效率技术,flash 定价仅为 pro 的 8%、opus 的约 1.1%,放出最强开源基模后退场,把后训练留给 Agent 实验室。

查看原文
AI 资讯解读

核心要点

DeepSeek v4 以务实策略突围:不堆 benchmark 分数、不晒训练账单,而是秀出 CSA/HCA/mHC 等长上下文效率的 SOTA 技术组合。其 Flash 模型定价仅为 GPT-4o Pro 的 8%、Claude Opus 的约 1.1%,在成本性能比上形成碾压式优势。更关键的是,他们放出最强开源基模后将后训练空间主动留给社区,自己退居基础层。

深度解读

swyx 的评价值得细品:这不只是一次产品发布,而是一种战略姿态。DeepSeek v4 选择在长上下文效率上押注,而非盲目追随多模态或长思考叙事——这恰恰切中了当下 Agent 应用落地的核心痛点。当上下文窗口从 32K 膨胀到 1M 时,成本和延迟就成了真实瓶颈,CSA/HCA/mHC 这套技术组合恰好解决了这个问题。

定价策略更是狠招:Flash 仅 1.1% 的 Opus 价格意味着什么?意味着长上下文的门槛被彻底击穿。开发者不再需要在"用得起"和"用得好"之间做痛苦选择,而是可以兼得。这对整个 Agent 开发栈是结构性冲击——当基础模型成本趋近于零,Agent 框架层、中间件层的价值会被重新估量。

最聪明的一步是开源基模 + 让出后训练的组合。这意味着 DeepSeek v4 不做垂直整合,而是做基础设施供应商,让 Agent 实验室们自行在基座上做 RLHF、SFT、RL。类比一下,这类似于 Linux 当年的策略——我不做所有发行版,但我提供最稳固的内核。

值得关注

本解读由 AI 自动生成,仅供参考。请以原文为准。