← 返回资讯
研究 @_akhaliq 2026-04-10

新论文:DMax 激进并行解码加速扩散语言模型推理

DMax 针对扩散型大语言模型(dLLMs)提出激进并行解码策略,通过同时生成多个 token 显著提升推理速度。

查看原文
AI 资讯解读

核心要点

2026 年 4 月,新研究 DMax 针对扩散型大语言模型(dLLMs)提出激进并行解码策略。与传统自回归模型逐 token 生成不同,扩散语言模型在单次去噪迭代中理论上可以并行生成所有 token,但此前缺乏高效的多 token 同步采样机制。DMax 通过改进采样路径,允许在单次去噪步骤中同时生成多个 token,从而在不损失生成质量的前提下显著提升推理吞吐量。这一方法标志着 dLLMs 推理加速从理论走向工程落地的关键一步。

原文 + 中文翻译

来源推文(@_akhaliq,2026-04-10):

原文:"DMax proposes aggressive parallel decoding for diffusion large language models, significantly speeding up inference by generating multiple tokens simultaneously."

翻译:DMax 为扩散型大语言模型提出激进并行解码,通过同时生成多个 token 显著加速推理。

深度解读

1. 为什么 dLLMs 的推理加速值得关注?

扩散型大语言模型(dLLMs)是近年来从图像生成领域(Stable Diffusion、DiT)延伸至语言建模的新架构范式。与 GPT 风格的 Transformer(逐 token 自回归生成)不同,dLLMs 将整个句子视为被噪声破坏的信号,通过多步去噪迭代逐步恢复原始文本。这种"全句子并行处理"的数学框架理论上具备更强的全局建模能力,但也面临一个核心瓶颈:单次推理需要 10-50 步去噪迭代,每步的计算成本远超自回归模型的单步。因此,即便 dLLMs 在生成质量上可能具有优势,其推理速度通常比同等规模的自回归模型慢 5-20 倍。DMax 的价值在于直面这一瓶颈。

2. DMax 的技术突破:从"全量生成"到"批量采样"

DMax 的核心洞察是:传统 dLLM 在每步去噪后只能输出一个完整的句子候选(因为需要去噪到某一噪声水平再采样),而这个约束限制了并行度上限。DMax 提出在单次去噪步骤中同时生成多个 token 的"激进并行解码"路径,借鉴了自回归模型中 speculative decoding 和批量并行推理的思想,同时保留扩散模型的多步去噪框架。关键设计可能包括:修改去噪过程使每步可以产出多个 token 位置的条件分布,然后从该分布中批量采样。这本质上是用"采样并行"换"推理延迟"。

3. 行业格局与竞争意义

dLLMs 领域目前的主要玩家包括 MSRA(Marconi)、Transfusion/Sana 等架构创新,以及 DeepSeek 的新项目。若 DMax 能够将 dLLMs 的推理速度提升至接近甚至达到同级别自回归模型水平,则意味着:第一,架构选择权回到研究者手中——企业可以在模型质量与推理成本之间做更灵活的权衡;第二,这对部署端(边缘设备、低延迟 API 服务)具有直接商业价值;第三,可能加速多模态扩散模型( diffusion-based VLM)的落地,因为图像/视频扩散的推理加速经验可以迁移至语言模态。

值得关注

信源行:
原文链接:x.com/_akhaliq/status/2042449645670916384
背景报道:扩散语言模型(dLLMs)推理加速是 2025-2026 年的热门研究方向,典型工作包括 MSRA Marconi(多步去噪优化)、Transfusion(Sana 架构)以及 DeepSeek 的新扩散模型论文,均在探索如何弥合 dLLMs 与自回归模型在推理效率上的差距。
关键词追踪:DMax、diffusion LLM parallel decoding、aggressive decoding、dLLM inference acceleration

本解读由 AI 自动生成,仅供参考。请以原文为准。