← 返回资讯
研究 @lmsysorg 2026-06-12

SGLang在GB300 NVL72上创纪录:DeepSeek V4 Pro达每秒1.2万toke…

通过NVIDIA Dynamo编排和MTP技术,在FP4精度下8K/1K配置实现高性能,且交互曲线全程保持强劲表现

查看原文
TL;DR · 评测解读

SGLang 在 GB300 NVL72 上跑 DeepSeek V4 Pro 达到 12k tok/s,但仅披露 FP4 精度这一单一数据点,缺对比基线和模型质量指标,实际意义存疑。

深度解读

测了什么?

SGLang 是一个 LLM serving 框架,在 NVIDIA GB300 NVL72 集群(Blackwell Ultra 架构)上部署 DeepSeek V4 Pro 模型,测得吞吐量 12,000 tokens/秒。测试配置为 FP4 精度(4-bit 浮点量化)和 8K/1K(推测为 8192 output / 1024 input 的 context 配置),并使用了 NVIDIA Dynamo 编排层和 Multi-Token Prediction(MTP)技术来提升生成效率。

方法论质疑

这条 benchmark 存在多个严重的信息缺口:

参考来源
  1. LMSYS Org 原文 · 2026-06-12
  2. SGLang GitHub - DeepSeek-V4 support · 2026-06-12
  3. NVIDIA Dynamo Documentation · 2025-01-01
本解读由 AI 自动生成 · 模板:评测解读 · 仅供参考,请以原文为准。