SGLang在GB300 NVL72上创纪录:DeepSeek V4 Pro达每秒1.2万toke…
通过NVIDIA Dynamo编排和MTP技术,在FP4精度下8K/1K配置实现高性能,且交互曲线全程保持强劲表现
查看原文TL;DR · 评测解读
SGLang 在 GB300 NVL72 上跑 DeepSeek V4 Pro 达到 12k tok/s,但仅披露 FP4 精度这一单一数据点,缺对比基线和模型质量指标,实际意义存疑。
深度解读
测了什么?
SGLang 是一个 LLM serving 框架,在 NVIDIA GB300 NVL72 集群(Blackwell Ultra 架构)上部署 DeepSeek V4 Pro 模型,测得吞吐量 12,000 tokens/秒。测试配置为 FP4 精度(4-bit 浮点量化)和 8K/1K(推测为 8192 output / 1024 input 的 context 配置),并使用了 NVIDIA Dynamo 编排层和 Multi-Token Prediction(MTP)技术来提升生成效率。
方法论质疑
这条 benchmark 存在多个严重的信息缺口:
- 无对比基线:「创纪录」是和谁比?SGLang 在 H100/H200 上的历史成绩?其他 serving 框架(vLLM、TGI)在同等硬件的表现?没有任何参照物,这个「纪录」无从验证。
- 精度选择存疑:FP4 是极低精度量化,正常生产环境几乎不用。DeepSeek V4 Pro 的 BF16/FP16 基线性能是多少?12k tok/s 是靠牺牲模型质量换来的还是真正的效率提升?模型输出质量(困惑度、BLEU、实际任务准确率)完全缺失。
- ● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
参考来源
- LMSYS Org 原文 · 2026-06-12
- SGLang GitHub - DeepSeek-V4 support · 2026-06-12
- NVIDIA Dynamo Documentation · 2025-01-01
本解读由 AI 自动生成 · 模板:评测解读 · 仅供参考,请以原文为准。