← 返回资讯
产品发布 @vllm_project 2026-04-27

vLLM:DeepSeek V4 base 模型支持即将就绪

V4 共 4 款模型(base/instruct × flash/pro),首批先支持 instruct;与 DeepSeek 合作在 config 中新增 expert_dtype 字段(base 用 fp8、instruct 用 fp4)以扩展 base 支持。

查看原文
AI 资讯解读

核心要点

vLLM 官方宣布即将支持 DeepSeek V4 base 模型,这是继 instruct 版本之后的又一重要扩展。通过与 DeepSeek 团队合作,vLLM 在配置中新增了 expert_dtype 字段,实现对 base 模型(fp8 量化)和 instruct 模型(fp4 量化)的差异化支持,标志着 MoE 模型推理框架在精度-性能权衡上的精细化管控迈上新台阶。

深度解读

DeepSeek V4 采用混合专家(MoE)架构,其核心挑战在于如何高效处理庞大的专家参数矩阵。vLLM 此番引入 expert_dtype 字段,本质上是将量化策略的选择权下放至模型配置层——base 模型使用 fp8 保持更高精度以适配预训练下游任务,instruct 模型则采用更激进的 fp4 压缩以降低推理延迟和显存占用。这一设计体现了按需量化的理念:同一模型系列的不同用途,可对应不同的精度策略。

从行业影响看,DeepSeek V4 的四款变体(base/instruct × flash/pro)暗示着 AI 推理正走向更细粒度的场景适配。flash 版本可能针对短上下文快速推理优化,pro 版本则可能面向长序列或复杂推理场景。vLLM 与 DeepSeek 的深度合作模式,也预示着头部开源推理框架与基础模型厂商的协同将更加紧密——不再是被动适配,而是主动在框架层预留模型特性支持。

值得关注的是,fp4 量化在 instruct 模型上的应用仍属较新技术路线,若效果验证良好,有望成为 2026 年 MoE 模型推理的标准配置,推动端侧部署进一步普及。

值得关注

本解读由 AI 自动生成,仅供参考。请以原文为准。