vLLM 祝贺 Google DeepMind 发布 DiffusionGemma,首个原生支持的…
26B 参数基于 Gemma4,支持块级并行去噪,单卡 H200(FP8)吞吐量超 1200 token/s,模型检查点已在 RedHat AI Hub 提供
查看原文vLLM 正式支持 Google DiffusionGemma,成为全球首个原生运行 Gemma 家族扩散模型的推理引擎,26B 参数下单卡 H200 FP8 吞吐量超 1200 token/s,标志着扩散模型推理从定制化走向标准化部署。
事件维度:vLLM 补上扩散模型推理的最后一块拼图
6 月 10 日,vLLM 项目方在 X 平台公开祝贺 Google DeepMind 发布 DiffusionGemma,并强调这是 vLLM 历史上首个原生支持的扩散模型。DiffusionGemma 脱胎于 Gemma4 家族,参数量 26B,核心创新在于块级并行去噪(block-level parallel denoising),能够在生成过程中跨多个 token block 并行执行扩散步骤,从而大幅削减时延。
此次合作的意义在于:过去扩散模型(Diffusion Model)因推理路径与自回归模型(AR)差异巨大,通常需要专用的推理框架(如 AAI Research 的 Quark 或 Stability AI 的推理引擎)。vLLM 凭借其 PagedAttention 和连续批处理能力,首次将扩散模型纳入统一推理栈,意味着企业用户可以用管理 LLM 相同的基础设施同时跑 AR 和 Diffusion 模型,降低运维复杂度。
行业影响与技术壁垒
从数字来看,单卡 H200(FP8 精度)吞吐量超过 1200
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- vLLM 祝贺 DiffusionGemma 发布推文 · 2026-06-10
- Google DeepMind DiffusionGemma 技术报告 · 2026-06-09