← 返回资讯
芯片 @vllm_project 2026-06-10

vLLM 祝贺 Google DeepMind 发布 DiffusionGemma,首个原生支持的…

26B 参数基于 Gemma4,支持块级并行去噪,单卡 H200(FP8)吞吐量超 1200 token/s,模型检查点已在 RedHat AI Hub 提供

查看原文
TL;DR · 事件解读

vLLM 正式支持 Google DiffusionGemma,成为全球首个原生运行 Gemma 家族扩散模型的推理引擎,26B 参数下单卡 H200 FP8 吞吐量超 1200 token/s,标志着扩散模型推理从定制化走向标准化部署。

深度解读

事件维度:vLLM 补上扩散模型推理的最后一块拼图

6 月 10 日,vLLM 项目方在 X 平台公开祝贺 Google DeepMind 发布 DiffusionGemma,并强调这是 vLLM 历史上首个原生支持的扩散模型。DiffusionGemma 脱胎于 Gemma4 家族,参数量 26B,核心创新在于块级并行去噪(block-level parallel denoising),能够在生成过程中跨多个 token block 并行执行扩散步骤,从而大幅削减时延。

此次合作的意义在于:过去扩散模型(Diffusion Model)因推理路径与自回归模型(AR)差异巨大,通常需要专用的推理框架(如 AAI Research 的 Quark 或 Stability AI 的推理引擎)。vLLM 凭借其 PagedAttention 和连续批处理能力,首次将扩散模型纳入统一推理栈,意味着企业用户可以用管理 LLM 相同的基础设施同时跑 AR 和 Diffusion 模型,降低运维复杂度。

行业影响与技术壁垒

从数字来看,单卡 H200(FP8 精度)吞吐量超过 1200

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. vLLM 祝贺 DiffusionGemma 发布推文 · 2026-06-10
  2. Google DeepMind DiffusionGemma 技术报告 · 2026-06-09
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。