核心要点
2026 年 4 月,新研究 DMax 针对扩散型大语言模型(dLLMs)提出激进并行解码策略。与传统自回归模型逐 token 生成不同,扩散语言模型在单次去噪迭代中理论上可以并行生成所有 token,但此前缺乏高效的多 token 同步采样机制。DMax 通过改进采样路径,允许在单次去噪步骤中同时生成多个 token,从而在不损失生成质量的前提下显著提升推理吞吐量。这一方法标志着 dLLMs 推理加速从理论走向工程落地的关键一步。
原文 + 中文翻译
来源推文(@_akhaliq,2026-04-10):
原文:"DMax proposes aggressive parallel decoding for diffusion large language models, significantly speeding up inference by generating multiple tokens simultaneously."
翻译:DMax 为扩散型大语言模型提出激进并行解码,通过同时生成多个 token 显著加速推理。
深度解读
1. 为什么 dLLMs 的推理加速值得关注?
扩散型大语言模型(dLLMs)是近年来从图像生成领域(Stable Diffusion、DiT)延伸至语言建模的新架构范式。与 GPT 风格的 Transformer(逐 token 自回归生成)不同,dLLMs 将整个句子视为被噪声破坏的信号,通过多步去噪迭代逐步恢复原始文本。这种"全句子并行处理"的数学框架理论上具备更强的全局建模能力,但也面临一个核心瓶颈:单次推理需要 10-50 步去噪迭代,每步的计算成本远超自回归模型的单步。因此,即便 dLLMs 在生成质量上可能具有优势,其推理速度通常比同等规模的自回归模型慢 5-20 倍。DMax 的价值在于直面这一瓶颈。
2. DMax 的技术突破:从"全量生成"到"批量采样"
DMax 的核心洞察是:传统 dLLM 在每步去噪后只能输出一个完整的句子候选(因为需要去噪到某一噪声水平再采样),而这个约束限制了并行度上限。DMax 提出在单次去噪步骤中同时生成多个 token 的"激进并行解码"路径,借鉴了自回归模型中 speculative decoding 和批量并行推理的思想,同时保留扩散模型的多步去噪框架。关键设计可能包括:修改去噪过程使每步可以产出多个 token 位置的条件分布,然后从该分布中批量采样。这本质上是用"采样并行"换"推理延迟"。
3. 行业格局与竞争意义
dLLMs 领域目前的主要玩家包括 MSRA(Marconi)、Transfusion/Sana 等架构创新,以及 DeepSeek 的新项目。若 DMax 能够将 dLLMs 的推理速度提升至接近甚至达到同级别自回归模型水平,则意味着:第一,架构选择权回到研究者手中——企业可以在模型质量与推理成本之间做更灵活的权衡;第二,这对部署端(边缘设备、低延迟 API 服务)具有直接商业价值;第三,可能加速多模态扩散模型( diffusion-based VLM)的落地,因为图像/视频扩散的推理加速经验可以迁移至语言模态。
值得关注
- DMax 的完整论文披露:关注 arXiv 上的预印本(关键词:"DMax" "diffusion LLM" "parallel decoding"),其中会包含具体的 benchmark 数据——与基线(如 Marconi、Transfusion)在同等硬件上做端到端延迟对比,以及在 NLP 任务(Benchmark MMLU/HellaSwag)上的质量损耗幅度。
- 多 token 采样策略的技术细节:DMax 的激进并行解码是依赖修改噪声调度(noise scheduling)还是引入额外的 token 级别采样头?这决定了该方法的通用性——是否需要针对不同 dLLM 架构重新训练。
- 生成质量 vs. 速度的帕累托曲线:在 DMax 中,同时生成的 token 数量(N)与 BLEU/Perplexity 指标之间的权衡关系是什么?是否存在一个"甜蜜点"(N=2~4)能在速度翻倍的同时保持质量?
- 与其他推理加速方法的协同效应:DMax 是否可以与 INT4/INT8 量化、FlashAttention 3、Triton kernel 优化等已有手段叠加?若可以叠加,dLLMs 的端到端推理成本有望下降 10x 以上。
- MSRA/DeepSeek 等厂商的跟进动态:主要 dLLM 研究团队是否会快速跟进 DMax 的思路,将其整合进开源模型(如 Transfusion)或商业 API?这是验证该方向是否成为行业共识的重要信号。
信源行:
原文链接:x.com/_akhaliq/status/2042449645670916384
背景报道:扩散语言模型(dLLMs)推理加速是 2025-2026 年的热门研究方向,典型工作包括 MSRA Marconi(多步去噪优化)、Transfusion(Sana 架构)以及 DeepSeek 的新扩散模型论文,均在探索如何弥合 dLLMs 与自回归模型在推理效率上的差距。
关键词追踪:DMax、diffusion LLM parallel decoding、aggressive decoding、dLLM inference acceleration