vLLM:v0.20.0 发布,新增 DeepSeek V4 与 Hunyuan v3 预览支持
752 个 commit、320 名贡献者;CUDA 13 + PyTorch 2.11 + Transformers v5 成为新基线,FA4 成为 MLA prefill 默认实现,TurboQuant 2-bit KV 缓存容量提升 4 倍。
查看原文核心要点
vLLM 发布史上最大规模版本 v0.20.0,由 752 个 commit 和 320 名贡献者共同完成。技术基线全面升级至 CUDA 13 + PyTorch 2.11 + Transformers v5,其中 TurboQuant 2-bit KV 缓存使容量提升 4 倍,同时新增 DeepSeek V4 与 Hunyuan v3 预览支持。
深度解读
此次 v0.20.0 的发布标志着 vLLM 在推理性能优化上迈入新阶段。TurboQuant 2-bit KV 缓存是最大亮点——通过更低精度的量化存储,KV 缓存容量提升 4 倍意味着在相同显存下可以支持更长的上下文窗口或更大批次的请求,直接降低部署成本并提升吞吐量。这对于需要处理长文档、长对话的企业场景尤为关键。
FA4(推测为 Flash Attention 4)成为 MLA(Multi-head Latent Attention)prefill 默认实现,反映出 vLLM 在注意力机制优化上持续深耕。MLA 是 DeepSeek 系列模型的核心架构,此举强化了 vLLM 对 DeepSeek V4 的原生支持意图。同步支持 Hunyuan v3(腾讯混元)预览,则显示 vLLM 正在扩大对国内头部模型的覆盖范围。
值得注意的是,PyTorch 2.11 + Transformers v5 的新基线意味着用户需要相应升级依赖环境,这既是机遇也是挑战——新框架版本通常带来编译优化收益,但也可能引发存量项目的兼容性问题。
值得关注
- TurboQuant 的实际推理延迟与精度损失权衡:4 倍容量提升是否会在真实部署中带来显著吞吐增益,需等待社区基准测试
- DeepSeek V4 与 Hunyuan v3 预览支持的稳定化时间线:预览阶段通常意味着部分功能仍在调优,企业生产环境采用需关注正式版发布
- CUDA 13 生态兼容性:老一代 GPU(如 A100)的驱动支持情况,以及是否会出现升级门槛过高的问题