LMSYS:SGLang 与 Miles 实现 DeepSeek-V4 Day-0 支持
技术博客披露 Pro 1.6T 在 B200 上跑出 199 tok/s、Flash 284B 在 H200 上 266 tok/s(4K 上下文),900K 长上下文仍保持 180/240 tok/s;亮点包括混合稀疏注意力、流形约束超连接(mHC)与 FP4 专家权重,并附完整 RL 训练栈。
查看原文核心要点
2026年4月25日,LMSYS Org 在 X 平台披露,旗下 SGLang 与 Miles 两款推理引擎已实现对 DeepSeek-V4 的 Day-0 支持。技术亮点涵盖:Pro 1.6T 参数版在 B200 GPU 上实测吞吐量达 199 tok/s,Flash 284B 版本在 H200 芯片上跑出 266 tok/s(4K 上下文),即便在 90 万 token 超长上下文下仍维持 180/240 tok/s 的高吞吐。核心技术包括混合稀疏注意力(Mixed Sparse Attention)、流形约束超连接(mHC)以及 FP4 专家权重量化,并附带完整 RL 训练栈,标志 DeepSeek-V4 从模型训练到线上推理的全链路已完整打通。
原文 + 中文翻译
原文:"SGLang & Miles achieve Day-0 support for DeepSeek-V4. Pro 1.6T on B200: 199 tok/s. Flash 284B on H200: 266 tok/s (4K ctx). 900K long context still 180/240 tok/s. Features: mixed sparse attention, manifold hyper-connect (mHC), FP4 expert weights. Full RL training stack included."
翻译:SGLang 与 Miles 实现 DeepSeek-V4 Day-0 支持。Pro 1.6T 在 B200 上:199 tok/s。Flash 284B 在 H200 上:266 tok/s(4K 上下文)。90 万 token 长上下文仍达 180/240 tok/s。特性:混合稀疏注意力、流形约束超连接(mHC)、FP4 专家权重。附完整 RL 训练栈。
深度解读
一、Day-0 支持的意义:从"能用"到"用好"的技术跨越
LMSYS 此番实现 Day-0 支持,意味着 DeepSeek-V4 在发布后极短时间内(理论上几乎是与官方权重同步)即完成了在主流推理引擎 SGLang(基于RadixAttention 加速)和 Miles(Anyscale 出品,以调度效率见长)上的生产级集成。通常情况下,一个新模型从发布到完成系统级调优需要数周乃至数月的工程周期,Day-0 支持背后依赖的是 LMSYS 基础设施的标准化程度以及 SGLang 框架对 MoE(Mixture of Experts)架构的深度适配。这不是简单的模型权重加载,而是对稀疏激活、跨节点 MoE 通信、KV 缓存管理等一系列底层瓶颈的系统性解决。
二、FP4 量化 + mHC:长上下文推理的成本革命
DeepSeek-V4 在 90 万 token 超长上下文下仍能保持 180/240 tok/s 的吞吐,这一数字极具冲击力。传统 Transformer 在长上下文场景下面临的瓶颈主要是 KV-cache 的内存膨胀与计算量的二次增长,而 DeepSeek-V4 通过两项技术组合破局:其一是 FP4 专家权重量化——对 MoE 中每个专家的权重进行 4-bit 量化,大幅压缩模型体积与显存占用;其二是流形约束超连接(mHC),通过在超连接设计中引入几何约束,降低长距离依赖的计算复杂度同时保持信息流动性。这两者的协同使得即使是 284B 规模的模型,在 H200 这种显存带宽型 GPU 上也能实现高吞吐。相比之下,如果用传统 FP16 全精度加载,同样上下文规模下吞吐可能下降 3-4 倍。
三、混合稀疏注意力的工程价值
Mixed Sparse Attention 并非新鲜概念,但 DeepSeek-V4 将其工程落地并集成进 RL 训练栈,意味着从预训练到后训练再到推理的全流程已统一在稀疏注意力范式下。稀疏注意力通过选择性计算关键 token 间的交互,而非全自注意力,将 attention 复杂度从 O(n²) 降低到接近 O(n)。在 RL 训练场景中,这意味着训练阶段可以处理更长的序列(如带长程奖励链的推理任务),同时保持可接受的计算开销。LMSYS 公布的完整 RL 训练栈,表明这套方案对强化学习后训练(Post-training)的支撑已就绪——这对当前 AI 行业"预训练 + RLHF"双轮驱动的趋势尤为关键。
四、B200 vs H200 的硬件适配分层
需要关注的一个细节是,Pro 1.6T 与 Flash 284B 分别在 B200(Blackwell 架构)和 H200(H100 系列迭代)上达到上述性能。B200 的 FP4/TF32 混合精度吞吐远超 H200,因此 1.6T 参数规模的模型才选择在该硬件上测试;而 H200 凭借更大的 HBM3e 带宽和 NVLink 带宽,对 284B 模型在 4K 上下文的场景下仍有足够余裕。这说明 DeepSeek-V4 的模型家族设计是分层的:更大参数量的 Pro 版本针对下一代硬件优化,Flash 版本则向下兼容现有集群。这种分层策略对部署方有重要参考价值——企业不必为了使用最新模型而等待硬件换新。
值得关注
- 量化精度与模型质量的取舍边界: FP4 专家权重量化在技术上已可行,但学术界对 FP4 下的下游任务质量(尤其是数学推理、多步规划类任务)是否出现显著退化尚无公开评测。关注 HuggingFace 上是否有 DeepSeek-V4 FP4 版本的主观评测报告(MT-Bench、MATH benchmark 等)。
- mHC 的开源进度: 流形约束超连接作为架构创新,其理论论文与工程实现是否随 DeepSeek-V4 同步开源?如果 mHC 仅作为内部优化而未公开,将限制学术界复现与改进。
- RL 训练栈的完整度: LMSYS 提及的"完整 RL 训练栈"具体包含哪些组件——是仅支持 GRPO(Group Relative Policy Optimization),还是兼容 PPO、DPO 等多种范式?这决定了开源社区能否直接用于 RLHF 流程。
- SGLang 与 vLLM 在 MoE 场景的竞争: 随着 SGLang 率先实现 DeepSeek-V4 Day-0 支持,vLLM 社区的跟进速度值得关注。MoE 模型的调度复杂度远超 dense 模型,2025-2026 年间推理框架在 MoE 优化上的差异化能力将成关键壁垒。
- 900K 上下文的实际部署场景: 180/240 tok/s 在 90 万 token 场景下的端到端延迟约 62-83 分钟,这对代码仓库分析、长文档理解等场景是可接受的,但对实时交互场景仍有差距。关注 Miles 是否通过 speculative decoding 等技术进一步压缩长上下文延迟。
信源行:
原文链接:https://x.com/lmsysorg/status/2048121451316965667
背景报道:LMSYS Chatbot Arena 是全球最大的 LLM 盲评平台(https://lmarena.ai);DeepSeek-V4 技术报告(2026年4月)发布于 DeepSeek 官方技术博客;SGLang 项目主页 github.com/sgl-project/sglang;Miles推理引擎由 Anyscale 维护,相关公告见 https://www.anyscale.com/blog。