大模型 @vllm_project 2026-05-30

vLLM支持StepFun AI模型

vLLM与NVIDIA合作，在DGX Station上运行StepFun_ai的Step-3.7-Flash模型。提供本地运行和生产环境两种部署方式，均支持NVIDIA NIM容器。

TL;DR · 产品解读

vLLM 正式支持阶跃星辰的 Step-3.7-Flash 模型，搭 NVIDIA NIM 容器实现本地 DGX Station 和生产环境双轨部署。对国内开发者和企业来说，主流开源推理框架又多了一个可选的高效推理后端。

深度解读

Step-3.7-Flash 是阶跃星辰（StepFun AI）Step 系列的轻量级推理版本，Flash 后缀通常意味着针对延迟和吞吐做了优化。vLLM 对其的原生支持，意味着开发者不再需要依赖闭源 API 或魔改推理代码，可以直接在开源框架上跑出接近硬件上限的性能。

技术层面：vLLM + NIM 的实际价值

vLLM 的核心优势在于 PagedAttention 显存管理和 Continous Batching，能显著提升长上下文和并发场景下的吞吐量。NVIDIA NIM（NVIDIA Inference Microservices）则是将推理服务封装为容器化部署单元，屏蔽了 CUDA 驱动、TensorRT 等底层依赖，一键拉取即可运行。

这次合作覆盖两条路径：

本地开发：DGX Station（单卡或多卡桌面级服务器），适合模型微调和 Debug；
生产环境：NGC 容器，支持分布式推理和多实例横向扩展。

对比同类竞品

SGLang：同为开源推理框架，RadixAttent

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。