← 返回资讯
大模型 @vllm_project 2026-05-30

vLLM支持StepFun AI模型

vLLM与NVIDIA合作,在DGX Station上运行StepFun_ai的Step-3.7-Flash模型。提供本地运行和生产环境两种部署方式,均支持NVIDIA NIM容器。

查看原文
TL;DR · 产品解读

vLLM 正式支持阶跃星辰的 Step-3.7-Flash 模型,搭 NVIDIA NIM 容器实现本地 DGX Station 和生产环境双轨部署。对国内开发者和企业来说,主流开源推理框架又多了一个可选的高效推理后端。

深度解读

Step-3.7-Flash 是阶跃星辰(StepFun AI)Step 系列的轻量级推理版本,Flash 后缀通常意味着针对延迟和吞吐做了优化。vLLM 对其的原生支持,意味着开发者不再需要依赖闭源 API 或魔改推理代码,可以直接在开源框架上跑出接近硬件上限的性能。

技术层面:vLLM + NIM 的实际价值

vLLM 的核心优势在于 PagedAttention 显存管理和 Continous Batching,能显著提升长上下文和并发场景下的吞吐量。NVIDIA NIM(NVIDIA Inference Microservices)则是将推理服务封装为容器化部署单元,屏蔽了 CUDA 驱动、TensorRT 等底层依赖,一键拉取即可运行。

这次合作覆盖两条路径:

对比同类竞品

参考来源
  1. vLLM项目官方公告 · 2026-05-30
  2. NVIDIA NIM 推理微服务 · 2026-05-30
  3. 阶跃星辰 Step 系列模型概览 · 2026-05-30
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。