产品发布 @vllm_project 2026-04-27

vLLM：DeepSeek V4 base 模型支持即将就绪

V4 共 4 款模型（base/instruct × flash/pro），首批先支持 instruct；与 DeepSeek 合作在 config 中新增 expert_dtype 字段（base 用 fp8、instruct 用 fp4）以扩展 base 支持。

查看原文

AI 资讯解读

核心要点

vLLM 官方宣布即将支持 DeepSeek V4 base 模型，这是继 instruct 版本之后的又一重要扩展。通过与 DeepSeek 团队合作，vLLM 在配置中新增了 expert_dtype 字段，实现对 base 模型（fp8 量化）和 instruct 模型（fp4 量化）的差异化支持，标志着 MoE 模型推理框架在精度-性能权衡上的精细化管控迈上新台阶。

深度解读

DeepSeek V4 采用混合专家（MoE）架构，其核心挑战在于如何高效处理庞大的专家参数矩阵。vLLM 此番引入 expert_dtype 字段，本质上是将量化策略的选择权下放至模型配置层——base 模型使用 fp8 保持更高精度以适配预训练下游任务，instruct 模型则采用更激进的 fp4 压缩以降低推理延迟和显存占用。这一设计体现了按需量化的理念：同一模型系列的不同用途，可对应不同的精度策略。

从行业影响看，DeepSeek V4 的四款变体（base/instruct × flash/pro）暗示着 AI 推理正走向更细粒度的场景适配。flash 版本可能针对短上下文快速推理优化，pro 版本则可能面向长序列或复杂推理场景。vLLM 与 DeepSeek 的深度合作模式，也预示着头部开源推理框架与基础模型厂商的协同将更加紧密——不再是被动适配，而是主动在框架层预留模型特性支持。

值得关注的是，fp4 量化在 instruct 模型上的应用仍属较新技术路线，若效果验证良好，有望成为 2026 年 MoE 模型推理的标准配置，推动端侧部署进一步普及。

值得关注

instruct 版本的正式发布节奏：首批支持的是 instruct 模型，用户需关注官方 release 时间及与 HuggingFace 官方版本的同步情况
fp4 量化在 instruct 上的精度保持：fp4 属于极低比特量化，实测性能与 fp16 的差距是决定该方案能否大规模落地的关键指标
expert_dtype 字段的通用化扩展：该设计可能被 vLLM 推广至其他 MoE 模型（如 Mixtral），形成统一的量化配置接口

本解读由 AI 自动生成，仅供参考。请以原文为准。