大模型 @vllm_project 2026-04-02

vLLM：v0.18.0 原生支持推测解码隐藏状态提取

vLLM v0.18.0 新增原生隐藏状态提取功能，用于训练推测解码草稿模型（Eagle-3 等），支持前缀缓存、分块预填充和分页内存，已集成到 Speculators v0.5.0。

AI 资讯解读

核心要点

2026年4月2日，vLLM 团队发布 v0.18.0 版本，正式引入原生隐藏状态提取（Native Hidden State Extraction）功能。该功能允许用户直接从 vLLM 的推测解码流程中导出中间层隐藏状态，用于训练或微调推测解码草稿模型（如 Eagle-3）。新版本同时支持前缀缓存（Prefix Caching）、分块预填充（Chunked Prefill）和分页内存（Paged Memory）等效率优化，并已与 Speculators v0.5.0 生态深度集成。这一更新标志着 vLLM 在推测解码基础设施上从「执行器」向「数据源」的角色延伸，降低了草稿模型训练的数据采集门槛。

原文 + 中文翻译

原文： vLLM v0.18.0 adds native hidden state extraction for speculative decoding draft models (Eagle-3 etc.), with prefix caching, chunked prefill, and paged memory support. Now integrated with Speculators v0.5.0. 🚀
翻译： vLLM v0.18.0 新增原生隐藏状态提取功能，用于推测解码草稿模型（Eagle-3 等），支持前缀缓存、分块预填充和分页内存。现已集成至 Speculators v0.5.0。🚀

深度解读

一、推测解码范式的关键补全

推测解码（Speculative Decoding）是当下大模型推理加速的核心技术路径之一。其核心逻辑是：用一个小型的「草稿模型」（Draft Model）快速生成多个候选 token，再由主模型（Target Model）验证通过。与传统的自回归逐 token 生成相比，推测解码在高吞吐场景下可将 token 生成速度提升 2-4 倍。然而，此前的行业痛点在于：草稿模型的质量直接决定了整体加速效果，而高质量草稿模型需要大量「主模型隐藏状态」作为训练数据。此前研究团队需要自行 hook vLLM 的 forward 流程来采集这些数据，代码复杂且版本兼容性问题频发。v0.18.0 的原生支持将这一环节标准化，大幅降低了构建高效草稿模型的技术壁垒。

二、Eagle 系列草稿模型的技术路线

Eagle 系列（包括 Eagle-3）是当前最活跃的开源推测解码草稿模型之一。与传统的「小模型做草稿」不同，Eagle 采用的是「主模型的隐藏状态投影」方案——即在同一主模型的 hidden states 基础上训练一个轻量级的预测头。Eagle-3 相比前代进一步引入了多层级融合和动态验证策略，在代码生成、数学推理等任务上相较简单小模型草稿有显著优势。此次 vLLM v0.18.0 原生支持隐藏状态提取，正是针对 Eagle 这类「隐藏状态驱动型」草稿模型的特定需求。具备原生数据导出能力后，社区可以更便捷地复现和微调 Eagle 系列模型，降低了研究复现的门槛。

三、生态整合：Speculators v0.5.0 的战略意义

Speculators 是 vLLM 生态下的推测解码算法库，提供统一的标准接口来管理和切换不同的推测解码策略（如 Eagle、Medusa、Self-Speculative Decoding 等）。v0.18.0 与 Speculators v0.5.0 的深度集成意味着：用户不仅能导出隐藏状态训练草稿模型，还能直接在 vLLM 推理引擎中调用这些经过标准接口封装的推测解码器。这一「训练-部署」闭环的形成，将吸引更多研究团队基于 vLLM 的基础设施构建垂直场景的推测解码方案，而不必从底层重新实现整个流程。

四、对推理服务提供商的影响

对于提供 LLM API 服务的厂商（如 Fireworks AI、Lepton AI、Together 等已深度集成 vLLM 的平台），v0.18.0 意味着更灵活的推理优化空间。通过自定义训练 Eagle-3 风格的草稿模型，服务商可以在保持模型输出质量的前提下，显著降低 GPU 算力成本。这对于竞争激烈的推理 API 市场尤其重要——每一次 token 生成成本的降低，都可能转化为价格战的弹药。

值得关注

Eagle-3 的基准性能数据： 新版本发布后，社区预计会陆续有人在 HuggingFace 上传基于 vLLM v0.18.0 隐藏状态训练的 Eagle-3 模型权重，关注其在 GSM8K / HumanEval 等基准上的实际加速比（当前 Eagle-2 典型加速约为 2.5-3x，接受率 70-80%）。
Speculators v0.5.0 的接口变更： 新版本的 API 是否向后兼容 v0.4.x，以及与 vLLM 内核的版本绑定策略，将影响现有项目的升级路径。建议关注其 Changelog 和迁移指南。
前缀缓存与草稿模型训练的协同效果： v0.18.0 支持在同一请求序列中复用 KV Cache（由前缀缓存实现），这可能显著降低批量训练隐藏状态时的内存占用和 I/O 开销，值得测试验证。
HuggingFace Transformers 跟进速度： 推断解码的生态竞争不只在 vLLM 一端。若 Transformers 官方在同期版本中提供类似的隐藏状态导出能力，可能会分流一部分不依赖 vLLM 推理侧的用户社区。
多模态模型的推测解码适配： 当前的隐藏状态提取优化是否覆盖 Vision-Language Model（如 LLaVA）的特殊 forward 流程，将是后续多模态推理加速社区关注的焦点。

信源行：
原文链接：vLLM 官方公告（X/Twitter）
背景报道：vLLM GitHub Releases v0.18.0 / Eagle 系列论文（HuggingFace Papers） / Speculators 官方仓库

本解读由 AI 自动生成，仅供参考。请以原文为准。