芯片 @GoogleDeepMind 2026-06-10

Google DeepMind 发布 DiffusionGemma：GPU 上文本生成快 4 倍

DiffusionGemma 通过块同步生成与自校正，可实时处理复杂 Markdown，单卡 H200（FP8）吞吐量超 1200 token/s

TL;DR · 产品解读

Google DeepMind 发布 Gemma 系列的扩散架构变体 DiffusionGemma，声称单卡 H200 FP8 吞吐量超 1200 token/s，比传统自回归生成快 4 倍。意味着扩散模型在文本生成上的实时性瓶颈被突破，挑战 Autoregressive (AR) 范式的主导地位。

深度解读

Google DeepMind 的历史立场与技术路线

Google DeepMind 在 Gemma 系列上一直扮演"开源实验田"角色——先用小模型验证架构假设，再推向大规模。2024 年 Gemma 2 证明小模型通过知识蒸馏可挑战大模型；这次 DiffusionGemma 则延续了 Google 对 Diffusion 范式的押注。Google 此前在 ImageGen、Veo 视频生成上已验证扩散架构的规模化优势，此次将其迁移到文本，是将"diffusion everywhere"战略延伸至语言建模。

块同步生成（chunked synchronous generation）与自校正机制是本次技术创新核心——这意味着 DiffusionGemma 不再依赖传统的 denoising 迭代，而是通过分段并行处理降低延迟。自校正则解决了扩散模型"一步错步步错"的质量隐患。这是一次从"架构可行"到"实时可用"的工程跨越。

反共识 Push back：扩散文本生成的三重质疑

场景泛化存疑：1200 token/s 的吞吐量数据来自 FP8 H200 单卡理想测试场景。实际生产环境（长上下文、多并发、高并发）的表现尚无公开数据。AR 模型（如 Llama）在推理优化生态（vLLM、

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Google DeepMind 发布 DiffusionGemma · 2026-06-10
Gemma 2 技术报告 · 2024-08-12
MDLM：扩散语言模型进展综述 · 2024-05-20

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。