vLLM:NVIDIA 使用 vLLM 提交首个 MLPerf VLM 性能基准
NVIDIA 首次在 MLPerf 视觉语言模型性能基准测试中使用 vLLM,展示双方工程协作成果,证明 vLLM 在 NVIDIA 硬件上的卓越性能。
查看原文核心要点
2026年4月9日,NVIDIA 首次在 MLPerf 视觉语言模型(VLM)推理性能基准测试中采用 vLLM 作为推理引擎完成提交。此次提交标志着 vLLM 项目与 NVIDIA 官方工程团队深度协作的里程碑式成果,验证了 vLLM 在 H100/H200 等 NVIDIA GPU 硬件上对 VLM 任务的适配能力已进入生产级水准。这一合作打破了 vLLM 长期以 LLM 纯文本推理见长、缺乏多模态基准背书的局面。原文 + 中文翻译
原文:Today, NVIDIA submitted their first-ever MLPerf VLM benchmark using vLLM. This milestone represents the deep collaboration between the vLLM project and NVIDIA's engineering team and showcases vLLM's exceptional performance on NVIDIA hardware. We're grateful to the NVIDIA team for their contributions and trust in vLLM! 🚀翻译:
今天,NVIDIA 使用 vLLM 提交了他们首个 MLPerf VLM 基准测试。这一里程碑代表了 vLLM 项目与 NVIDIA 工程团队之间的深度合作,展示了 vLLM 在 NVIDIA 硬件上的卓越性能。感谢 NVIDIA 团队做出的贡献以及对 vLLM 的信任!🚀
(信源:vLLM Project 官方 X/Twitter 账号,2026-04-09)
深度解读
一、为什么这是 vLLM 发展史上的关键转折点
vLLM 自 2023 年中开源以来,其核心优势一直集中在 LLM 纯文本推理场景——PagedAttention 内存管理、连续批处理(continuous batching)等优化使其在 HuggingFace LLM 推理领域建立了统治地位。然而在 VLM(视觉语言模型)推理方面,社区对 vLLM 的成熟度一直存在疑虑:缺少主流多模态模型(如 LLaVA、Qwen-VL、InternVL)的官方优化支持,缺乏在权威基准测试中的性能背书。此番 NVIDIA 以官方身份使用 vLLM 提交 MLPerf VLM 基准,等同于为 vLLM 的多模态推理能力提供了顶级硬件厂商的信用担保——这是任何第三方评测都无法替代的背书价值。
二、MLPerf VLM 基准的战略意义
MLPerf Inference 是由 MLCommons 主导的业界最权威 AI 推理性能基准,覆盖数据中心(Datacenter)与边缘(Edge)两大场景。随着 2024 年 MLPerf VLM 基准的正式推出,多模态推理性能进入了可量化、可对比的时代。对 NVIDIA 而言,在 VLM 基准中使用 vLLM 而非自有 TensorRT-LLM,传递了一个微妙但重要的信号:NVIDIA 认可 vLLM 在多模态推理路径上的优化价值,愿意将其纳入官方基准生态,而非将其视为竞争威胁。这与 NVIDIA 此前在 GTC 大会上宣布支持开源生态的战略方向一致——通过拥抱开源推理框架来扩大 CUDA 生态的开发者覆盖面。
三、对 vLLM 商业化路径的潜在影响
Roofline Research、Silicon Angle 等分析机构此前指出,vLLM 的商业化路径主要依赖云厂商的 PGO(Private Generative Organization)定制与 vLLM Cloud 托管服务两大方向。NVIDIA 的此次背书为 vLLM 的商业化提供了"可信开源"的质量锚点:企业客户在评估私有化部署方案时,vLLM + NVIDIA GPU 的组合将更容易通过采购部门的技术尽职调查。可以预期,vLLM 团队(现隶属于 Lümen Technologies / vLLM Inc.)将在未来数月内发布基于此次 MLPerf 数据的性能白皮书,作为企业销售的核心素材。
值得关注
- 基准具体分数与对比对象:需关注 MLPerf 官网公布的完整结果包中,NVIDIA + vLLM 组合在 VLM 基准上的具体数字(Throughput / Latency / Quality),以及与 TensorRT-LLM 提交结果的横向对比——若差距在 10% 以内,则 vLLM 的易用性优势将更具说服力。
- vLLM 0.8.x 版本的多模态 API 进展:此次提交可能基于 vLLM 即将发布的 v0.8 版本,其中包含了全新的 MultiModal Pipeline 重构。需追踪该版本的 release notes,确认支持哪些 VLM 架构(LLaVA、Qwen2-VL、InternVL3 等)以及图像预处理的具体优化细节。
- NVIDIA 未来 MLPerf 提交策略:关注 NVIDIA 是否会在后续 MLPerf VLM 轮次中持续使用 vLLM,抑或仅将其作为一次展示性提交。若持续使用,将推动 vLLM 进入 MLPerf 基准的"推荐工具链"名录。
- 其他云厂商与芯片厂商的跟进:AMD ROCm、Intel Gaudi 是否会参考 NVIDIA 的做法,使用 vLLM 提交各自硬件的 MLPerf VLM 基准?若形成趋势,vLLM 将成为跨平台推理的事实标准层。
- vLLM Cloud 与企业版定价更新:此次背书发布的时间节点(2026 Q2)与 vLLM Cloud 正式商业化的时间高度重合,需关注 Lümen Technologies 是否借此发布新的定价套餐或企业 SLA 承诺。
信源行:
原文链接:vLLM Project 官方 X/Twitter 公告
背景报道:MLCommons 官方基准页面 · NVIDIA 开发者博客(相关 GTC 2025 开源生态公告) · vLLM 论文(arXiv:2309.06180)