大模型 @lmsysorg 2026-06-12

SGLang在GB300 NVL72上创纪录：DeepSeek V4 Pro达每秒1.2万toke…

通过NVIDIA Dynamo编排和MTP技术，在FP4精度下8K/1K配置实现高性能，且交互曲线全程保持强劲表现

TL;DR · 评测解读

SGLang 在 GB300 NVL72 上跑 DeepSeek V4 Pro 达到 12k tok/s，但仅披露 FP4 精度这一单一数据点，缺对比基线和模型质量指标，实际意义存疑。

深度解读

测了什么？

SGLang 是一个 LLM serving 框架，在 NVIDIA GB300 NVL72 集群（Blackwell Ultra 架构）上部署 DeepSeek V4 Pro 模型，测得吞吐量 12,000 tokens/秒。测试配置为 FP4 精度（4-bit 浮点量化）和 8K/1K（推测为 8192 output / 1024 input 的 context 配置），并使用了 NVIDIA Dynamo 编排层和 Multi-Token Prediction（MTP）技术来提升生成效率。

方法论质疑

这条 benchmark 存在多个严重的信息缺口：

无对比基线：「创纪录」是和谁比？SGLang 在 H100/H200 上的历史成绩？其他 serving 框架（vLLM、TGI）在同等硬件的表现？没有任何参照物，这个「纪录」无从验证。
精度选择存疑：FP4 是极低精度量化，正常生产环境几乎不用。DeepSeek V4 Pro 的 BF16/FP16 基线性能是多少？12k tok/s 是靠牺牲模型质量换来的还是真正的效率提升？模型输出质量（困惑度、BLEU、实际任务准确率）完全缺失。
● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

LMSYS Org 原文 · 2026-06-12
SGLang GitHub - DeepSeek-V4 support · 2026-06-12
NVIDIA Dynamo Documentation · 2025-01-01

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。