← 返回资讯
观点 @GoogleDeepMind 2026-06-10

Google DeepMind 发布 DiffusionGemma:GPU 上文本生成快 4 倍

DiffusionGemma 通过块同步生成与自校正,可实时处理复杂 Markdown,单卡 H200(FP8)吞吐量超 1200 token/s

查看原文
TL;DR · 产品解读

Google DeepMind 发布 Gemma 系列的扩散架构变体 DiffusionGemma,声称单卡 H200 FP8 吞吐量超 1200 token/s,比传统自回归生成快 4 倍。意味着扩散模型在文本生成上的实时性瓶颈被突破,挑战 Autoregressive (AR) 范式的主导地位。

深度解读

Google DeepMind 的历史立场与技术路线

Google DeepMind 在 Gemma 系列上一直扮演"开源实验田"角色——先用小模型验证架构假设,再推向大规模。2024 年 Gemma 2 证明小模型通过知识蒸馏可挑战大模型;这次 DiffusionGemma 则延续了 Google 对 Diffusion 范式的押注。Google 此前在 ImageGen、Veo 视频生成上已验证扩散架构的规模化优势,此次将其迁移到文本,是将"diffusion everywhere"战略延伸至语言建模。

块同步生成(chunked synchronous generation)与自校正机制是本次技术创新核心——这意味着 DiffusionGemma 不再依赖传统的 denoising 迭代,而是通过分段并行处理降低延迟。自校正则解决了扩散模型"一步错步步错"的质量隐患。这是一次从"架构可行"到"实时可用"的工程跨越。

反共识 Push back:扩散文本生成的三重质疑

参考来源
  1. Google DeepMind 发布 DiffusionGemma · 2026-06-10
  2. Gemma 2 技术报告 · 2024-08-12
  3. MDLM:扩散语言模型进展综述 · 2024-05-20
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。