vLLM:v0.18.0 原生支持推测解码隐藏状态提取
vLLM v0.18.0 新增原生隐藏状态提取功能,用于训练推测解码草稿模型(Eagle-3 等),支持前缀缓存、分块预填充和分页内存,已集成到 Speculators v0.5.0。
查看原文核心要点
2026年4月2日,vLLM 团队发布 v0.18.0 版本,正式引入原生隐藏状态提取(Native Hidden State Extraction)功能。该功能允许用户直接从 vLLM 的推测解码流程中导出中间层隐藏状态,用于训练或微调推测解码草稿模型(如 Eagle-3)。新版本同时支持前缀缓存(Prefix Caching)、分块预填充(Chunked Prefill)和分页内存(Paged Memory)等效率优化,并已与 Speculators v0.5.0 生态深度集成。这一更新标志着 vLLM 在推测解码基础设施上从「执行器」向「数据源」的角色延伸,降低了草稿模型训练的数据采集门槛。
原文 + 中文翻译
原文: vLLM v0.18.0 adds native hidden state extraction for speculative decoding draft models (Eagle-3 etc.), with prefix caching, chunked prefill, and paged memory support. Now integrated with Speculators v0.5.0. 🚀
翻译: vLLM v0.18.0 新增原生隐藏状态提取功能,用于推测解码草稿模型(Eagle-3 等),支持前缀缓存、分块预填充和分页内存。现已集成至 Speculators v0.5.0。🚀
深度解读
一、推测解码范式的关键补全
推测解码(Speculative Decoding)是当下大模型推理加速的核心技术路径之一。其核心逻辑是:用一个小型的「草稿模型」(Draft Model)快速生成多个候选 token,再由主模型(Target Model)验证通过。与传统的自回归逐 token 生成相比,推测解码在高吞吐场景下可将 token 生成速度提升 2-4 倍。然而,此前的行业痛点在于:草稿模型的质量直接决定了整体加速效果,而高质量草稿模型需要大量「主模型隐藏状态」作为训练数据。此前研究团队需要自行 hook vLLM 的 forward 流程来采集这些数据,代码复杂且版本兼容性问题频发。v0.18.0 的原生支持将这一环节标准化,大幅降低了构建高效草稿模型的技术壁垒。
二、Eagle 系列草稿模型的技术路线
Eagle 系列(包括 Eagle-3)是当前最活跃的开源推测解码草稿模型之一。与传统的「小模型做草稿」不同,Eagle 采用的是「主模型的隐藏状态投影」方案——即在同一主模型的 hidden states 基础上训练一个轻量级的预测头。Eagle-3 相比前代进一步引入了多层级融合和动态验证策略,在代码生成、数学推理等任务上相较简单小模型草稿有显著优势。此次 vLLM v0.18.0 原生支持隐藏状态提取,正是针对 Eagle 这类「隐藏状态驱动型」草稿模型的特定需求。具备原生数据导出能力后,社区可以更便捷地复现和微调 Eagle 系列模型,降低了研究复现的门槛。
三、生态整合:Speculators v0.5.0 的战略意义
Speculators 是 vLLM 生态下的推测解码算法库,提供统一的标准接口来管理和切换不同的推测解码策略(如 Eagle、Medusa、Self-Speculative Decoding 等)。v0.18.0 与 Speculators v0.5.0 的深度集成意味着:用户不仅能导出隐藏状态训练草稿模型,还能直接在 vLLM 推理引擎中调用这些经过标准接口封装的推测解码器。这一「训练-部署」闭环的形成,将吸引更多研究团队基于 vLLM 的基础设施构建垂直场景的推测解码方案,而不必从底层重新实现整个流程。
四、对推理服务提供商的影响
对于提供 LLM API 服务的厂商(如 Fireworks AI、Lepton AI、Together 等已深度集成 vLLM 的平台),v0.18.0 意味着更灵活的推理优化空间。通过自定义训练 Eagle-3 风格的草稿模型,服务商可以在保持模型输出质量的前提下,显著降低 GPU 算力成本。这对于竞争激烈的推理 API 市场尤其重要——每一次 token 生成成本的降低,都可能转化为价格战的弹药。
值得关注
- Eagle-3 的基准性能数据: 新版本发布后,社区预计会陆续有人在 HuggingFace 上传基于 vLLM v0.18.0 隐藏状态训练的 Eagle-3 模型权重,关注其在 GSM8K / HumanEval 等基准上的实际加速比(当前 Eagle-2 典型加速约为 2.5-3x,接受率 70-80%)。
- Speculators v0.5.0 的接口变更: 新版本的 API 是否向后兼容 v0.4.x,以及与 vLLM 内核的版本绑定策略,将影响现有项目的升级路径。建议关注其 Changelog 和迁移指南。
- 前缀缓存与草稿模型训练的协同效果: v0.18.0 支持在同一请求序列中复用 KV Cache(由前缀缓存实现),这可能显著降低批量训练隐藏状态时的内存占用和 I/O 开销,值得测试验证。
- HuggingFace Transformers 跟进速度: 推断解码的生态竞争不只在 vLLM 一端。若 Transformers 官方在同期版本中提供类似的隐藏状态导出能力,可能会分流一部分不依赖 vLLM 推理侧的用户社区。
- 多模态模型的推测解码适配: 当前的隐藏状态提取优化是否覆盖 Vision-Language Model(如 LLaVA)的特殊 forward 流程,将是后续多模态推理加速社区关注的焦点。
信源行:
原文链接:vLLM 官方公告(X/Twitter)
背景报道:vLLM GitHub Releases v0.18.0 / Eagle 系列论文(HuggingFace Papers) / Speculators 官方仓库