阶跃星辰发布 Step-3.7-Flash(198B 稀疏 MoE),vLLM 首日支持意味着开箱即用的高效推理体验。稀疏 MoE 架构在保持大参数模型能力的同时显著降低激活参数,适合需要大模型能力但预算有限的企业用户。
产品是什么
Step-3.7-Flash 是阶跃星辰(StepFun)发布的第三代 Step 系列模型,采用198B 总参数稀疏 MoE(Mixture of Experts)架构。所谓稀疏 MoE,即模型包含大量"专家"网络,但在推理时只激活与当前任务相关的少数专家,从而以较低计算成本实现接近超大密集模型的性能。
Flash 后缀暗示这是一款注重推理速度与成本优化的轻量级变体,区别于同系列的完整版模型。
解决什么问题
传统 Dense 大模型(如 GPT-4 级别)推理成本极高,企业难以承受大规模部署。Step-3.7-Flash 通过稀疏激活机制,在198B 总参数量下只激活约20-30B 参数(具体比例视实现而定),大幅降低每次推理的 FLOPs 消耗。这意味着:
- 更低的推理成本:Token 生成单价显著低于同参数量的密集模型
- 更快的推理速度:在相同硬件下,吞吐量和延迟表现更优
- 更大的处理批次:支持更高并发,降低单位请求成本
vLLM Day-0 支持的意义
vLLM 是
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- vLLM Project 公告 · 2026-05-29
- DeepSeek-V3 技术报告 · 2024-12
- vLLM 官方文档 - MoE 支持 · 2026-05