← 返回资讯
大模型 @vllm_project 2026-04-02

vLLM:v0.18.0 原生支持推测解码隐藏状态提取

vLLM v0.18.0 新增原生隐藏状态提取功能,用于训练推测解码草稿模型(Eagle-3 等),支持前缀缓存、分块预填充和分页内存,已集成到 Speculators v0.5.0。

查看原文
AI 资讯解读

核心要点

2026年4月2日,vLLM 团队发布 v0.18.0 版本,正式引入原生隐藏状态提取(Native Hidden State Extraction)功能。该功能允许用户直接从 vLLM 的推测解码流程中导出中间层隐藏状态,用于训练或微调推测解码草稿模型(如 Eagle-3)。新版本同时支持前缀缓存(Prefix Caching)、分块预填充(Chunked Prefill)和分页内存(Paged Memory)等效率优化,并已与 Speculators v0.5.0 生态深度集成。这一更新标志着 vLLM 在推测解码基础设施上从「执行器」向「数据源」的角色延伸,降低了草稿模型训练的数据采集门槛。

原文 + 中文翻译

原文: vLLM v0.18.0 adds native hidden state extraction for speculative decoding draft models (Eagle-3 etc.), with prefix caching, chunked prefill, and paged memory support. Now integrated with Speculators v0.5.0. 🚀

翻译: vLLM v0.18.0 新增原生隐藏状态提取功能,用于推测解码草稿模型(Eagle-3 等),支持前缀缓存、分块预填充和分页内存。现已集成至 Speculators v0.5.0。🚀

深度解读

一、推测解码范式的关键补全

推测解码(Speculative Decoding)是当下大模型推理加速的核心技术路径之一。其核心逻辑是:用一个小型的「草稿模型」(Draft Model)快速生成多个候选 token,再由主模型(Target Model)验证通过。与传统的自回归逐 token 生成相比,推测解码在高吞吐场景下可将 token 生成速度提升 2-4 倍。然而,此前的行业痛点在于:草稿模型的质量直接决定了整体加速效果,而高质量草稿模型需要大量「主模型隐藏状态」作为训练数据。此前研究团队需要自行 hook vLLM 的 forward 流程来采集这些数据,代码复杂且版本兼容性问题频发。v0.18.0 的原生支持将这一环节标准化,大幅降低了构建高效草稿模型的技术壁垒。

二、Eagle 系列草稿模型的技术路线

Eagle 系列(包括 Eagle-3)是当前最活跃的开源推测解码草稿模型之一。与传统的「小模型做草稿」不同,Eagle 采用的是「主模型的隐藏状态投影」方案——即在同一主模型的 hidden states 基础上训练一个轻量级的预测头。Eagle-3 相比前代进一步引入了多层级融合和动态验证策略,在代码生成、数学推理等任务上相较简单小模型草稿有显著优势。此次 vLLM v0.18.0 原生支持隐藏状态提取,正是针对 Eagle 这类「隐藏状态驱动型」草稿模型的特定需求。具备原生数据导出能力后,社区可以更便捷地复现和微调 Eagle 系列模型,降低了研究复现的门槛。

三、生态整合:Speculators v0.5.0 的战略意义

Speculators 是 vLLM 生态下的推测解码算法库,提供统一的标准接口来管理和切换不同的推测解码策略(如 Eagle、Medusa、Self-Speculative Decoding 等)。v0.18.0 与 Speculators v0.5.0 的深度集成意味着:用户不仅能导出隐藏状态训练草稿模型,还能直接在 vLLM 推理引擎中调用这些经过标准接口封装的推测解码器。这一「训练-部署」闭环的形成,将吸引更多研究团队基于 vLLM 的基础设施构建垂直场景的推测解码方案,而不必从底层重新实现整个流程。

四、对推理服务提供商的影响

对于提供 LLM API 服务的厂商(如 Fireworks AI、Lepton AI、Together 等已深度集成 vLLM 的平台),v0.18.0 意味着更灵活的推理优化空间。通过自定义训练 Eagle-3 风格的草稿模型,服务商可以在保持模型输出质量的前提下,显著降低 GPU 算力成本。这对于竞争激烈的推理 API 市场尤其重要——每一次 token 生成成本的降低,都可能转化为价格战的弹药。

值得关注

信源行:
原文链接:vLLM 官方公告(X/Twitter)
背景报道:vLLM GitHub Releases v0.18.0 / Eagle 系列论文(HuggingFace Papers) / Speculators 官方仓库

本解读由 AI 自动生成,仅供参考。请以原文为准。