vLLM:llm-compressor 突破 3K Star,已支持 Gemma 4 和 Qwen 3.5 量化
vLLM 旗下 llm-compressor 项目达到 3000 Star 里程碑,已支持 Gemma 4 和 Qwen 3.5 的 NVFP4 和 FP8 量化检查点,实现一次量化、vLLM 直接部署。
查看原文核心要点
2026 年 4 月 9 日,vLLM 官方 X 账号 @vllm_project 宣布其开源项目 llm-compressor 在 GitHub 仓库突破 3000 Star 里程碑。该项目新增对 Google Gemma 4 和阿里通义 Qwen 3.5 系列模型的支持,提供 NVFP4(NVIDIA FP4) 和 FP8 两种低精度量化检查点格式,实现"一次量化、直接部署"的极简工作流——用户只需用 llm-compressor 完成模型量化,产出的权重即可被 vLLM 原生加载推理,无需二次转换或额外适配。
原文 + 中文翻译
原文:
"🎉 llm-compressor has reached 3000 stars! Huge thanks to our amazing community! ✨ We've just added support for Gemma 4 and Qwen 3.5 NVFP4 and FP8 quantization checkpoints — quantize once, deploy directly with vLLM!"
翻译:
"🎉 llm-compressor 已达成 3000 Star!衷心感谢我们出色的社区!✨ 我们刚刚新增了对 Gemma 4 和 Qwen 3.5 的 NVFP4 与 FP8 量化检查点支持——一次量化,即可直接在 vLLM 中部署!"
深度解读
从 2K 到 3K:开源社区认可的技术信号
llm-compressor 从 2000 Star 增长到 3000 Star 的速度本身就是一个值得关注的指标。相比 vLLM 核心仓库(目前已超 30K Star),llm-compressor 作为配套工具能快速积累用户,说明社区对低精度量化部署工具链存在强烈需求。3000 Star 意味着全球已有数千名工程师和研究者在生产环境或实验中使用该工具——这不仅是对项目质量的认可,也意味着 llm-compressor 已进入"自我强化循环":更多用户带来更多 issue 反馈和 PR 贡献,进而推动工具成熟度提升。
NVFP4 + FP8 双格式支持:英伟达生态与通用场景的兼顾
此次更新的核心亮点在于同时支持 NVFP4 和 FP8 两种量化精度。FP8(Float 8)早已在 LLM 推理中广泛应用,其精度损失可控、硬件支持成熟(H100/Blackwell 系列原生支持),是当前企业级部署的主流选择。而 NVFP4(NVIDIA FP4)则是更新的技术——英伟达在 Blackwell 架构中引入的 4-bit 浮点格式,相比 INT4 在特定场景下可提供更好的精度-压缩比,但对工具链的适配要求也更高。
llm-compressor 同时支持这两种格式,意味着开发者可以在同一套工具内根据硬件条件和精度需求灵活选择:追求极致压缩率时选 NVFP4,追求稳健生产部署时选 FP8。这种灵活性对于服务多租户或需要跨代硬件兼容的场景尤为重要。
与 Gemma 4 / Qwen 3.5 同步:模型厂商与推理框架的协同成熟
Google Gemma 4 和阿里 Qwen 3.5 是 2026 年上半年最受关注的两大开源模型系列。llm-compressor 在这两款模型发布后短时间内即提供官方量化支持,不是偶然——这反映了 AI 开源生态中"模型厂商 → 量化工具 → 推理引擎"三方协作的成熟度已今非昔比。
过往,大模型从发布到能在 vLLM 高效推理往往存在数周乃至数月的"等待期":需要社区自行探索量化方案、适配检查点格式、调试兼容性。如今,vLLM 团队提前与 Google 和阿里建立了量化支持的对接通道,用户在新模型发布当天或数日内即可获取优化后的量化权重,大幅缩短了"模型发布"到"生产可用"的时间窗口。
商业含义:推理成本竞争的关键杠杆
低精度量化是当前大模型推理降本的核心手段之一。以 Qwen 3.5-72B 为例,若使用 FP8 量化,模型权重可从 ~144GB 压缩至 ~18GB(理论压缩比约 8:1),单卡 H100(80GB显存)即可承载原本需要 2 卡才能加载的模型。这意味着推理服务的硬件门槛减半,在规模化部署时可带来显著的成本优势。llm-compressor 的"一次量化、直接部署"特性进一步降低了这个过程的工程复杂度,使中小型团队也能快速实现低成本部署。
值得关注
- Star 增长斜率:持续关注 llm-compressor 仓库在接下来 3-6 个月内是否突破 5000 Star,这将反映低精度量化工具链的市场需求热度。
- vLLM 新版本集成:预计 vLLM v0.8.x 或 v0.9 版本会将 llm-compressor 产出的 NVFP4/FP8 检查点支持作为核心功能纳入官方 release note,建议追踪其发布时间和变更说明。
- Qwen 3.5 系列覆盖范围:目前支持的具体是哪几个参数量的模型(72B / 32B / 14B?)以及是否涵盖 MoE 架构变体,建议对照官方文档验证。
- Gemma 4 多模态扩展:Gemma 4 预计包含视觉版本(如 Gemma Vision),需关注 llm-compressor 是否或何时支持多模态模型的量化,这将影响多模态推理的部署成本。
- NVFP4 硬件普及进度:NVFP4 的实际收益依赖 Blackwell 架构 GPU(如 B200/B100)的出货量,建议追踪英伟达 2026 年财报中数据中心 GPU 的出货数据。
信源行:
原文链接:https://x.com/vllm_project/status/2042244885001200059
背景报道:llm-compressor GitHub 仓库(官方) | Google Gemma 4 发布博客 | Qwen 3.5 技术文档(阿里)