Google DeepMind 发布 DiffusionGemma:GPU 上文本生成快 4 倍
DiffusionGemma 通过块同步生成与自校正,可实时处理复杂 Markdown,单卡 H200(FP8)吞吐量超 1200 token/s
查看原文Google DeepMind 发布 Gemma 系列的扩散架构变体 DiffusionGemma,声称单卡 H200 FP8 吞吐量超 1200 token/s,比传统自回归生成快 4 倍。意味着扩散模型在文本生成上的实时性瓶颈被突破,挑战 Autoregressive (AR) 范式的主导地位。
Google DeepMind 的历史立场与技术路线
Google DeepMind 在 Gemma 系列上一直扮演"开源实验田"角色——先用小模型验证架构假设,再推向大规模。2024 年 Gemma 2 证明小模型通过知识蒸馏可挑战大模型;这次 DiffusionGemma 则延续了 Google 对 Diffusion 范式的押注。Google 此前在 ImageGen、Veo 视频生成上已验证扩散架构的规模化优势,此次将其迁移到文本,是将"diffusion everywhere"战略延伸至语言建模。
块同步生成(chunked synchronous generation)与自校正机制是本次技术创新核心——这意味着 DiffusionGemma 不再依赖传统的 denoising 迭代,而是通过分段并行处理降低延迟。自校正则解决了扩散模型"一步错步步错"的质量隐患。这是一次从"架构可行"到"实时可用"的工程跨越。
反共识 Push back:扩散文本生成的三重质疑
- 场景泛化存疑:1200 token/s 的吞吐量数据来自 FP8 H200 单卡理想测试场景。实际生产环境(长上下文、多并发、高并发)的表现尚无公开数据。AR 模型(如 Llama)在推理优化生态(vLLM、
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Google DeepMind 发布 DiffusionGemma · 2026-06-10
- Gemma 2 技术报告 · 2024-08-12
- MDLM:扩散语言模型进展综述 · 2024-05-20