vLLM:DeepSeek V4 base 模型支持即将就绪
V4 共 4 款模型(base/instruct × flash/pro),首批先支持 instruct;与 DeepSeek 合作在 config 中新增 expert_dtype 字段(base 用 fp8、instruct 用 fp4)以扩展 base 支持。
查看原文核心要点
vLLM 官方宣布即将支持 DeepSeek V4 base 模型,这是继 instruct 版本之后的又一重要扩展。通过与 DeepSeek 团队合作,vLLM 在配置中新增了 expert_dtype 字段,实现对 base 模型(fp8 量化)和 instruct 模型(fp4 量化)的差异化支持,标志着 MoE 模型推理框架在精度-性能权衡上的精细化管控迈上新台阶。
深度解读
DeepSeek V4 采用混合专家(MoE)架构,其核心挑战在于如何高效处理庞大的专家参数矩阵。vLLM 此番引入 expert_dtype 字段,本质上是将量化策略的选择权下放至模型配置层——base 模型使用 fp8 保持更高精度以适配预训练下游任务,instruct 模型则采用更激进的 fp4 压缩以降低推理延迟和显存占用。这一设计体现了按需量化的理念:同一模型系列的不同用途,可对应不同的精度策略。
从行业影响看,DeepSeek V4 的四款变体(base/instruct × flash/pro)暗示着 AI 推理正走向更细粒度的场景适配。flash 版本可能针对短上下文快速推理优化,pro 版本则可能面向长序列或复杂推理场景。vLLM 与 DeepSeek 的深度合作模式,也预示着头部开源推理框架与基础模型厂商的协同将更加紧密——不再是被动适配,而是主动在框架层预留模型特性支持。
值得关注的是,fp4 量化在 instruct 模型上的应用仍属较新技术路线,若效果验证良好,有望成为 2026 年 MoE 模型推理的标准配置,推动端侧部署进一步普及。
值得关注
- instruct 版本的正式发布节奏:首批支持的是 instruct 模型,用户需关注官方 release 时间及与 HuggingFace 官方版本的同步情况
- fp4 量化在 instruct 上的精度保持:fp4 属于极低比特量化,实测性能与 fp16 的差距是决定该方案能否大规模落地的关键指标
- expert_dtype 字段的通用化扩展:该设计可能被 vLLM 推广至其他 MoE 模型(如 Mixtral),形成统一的量化配置接口